内蒙古自治区自然科学基金(2013MS0909) 作品数:13 被引量:8 H指数:2 相关作者: 张晓琳 王鹏 刘立新 张换香 郭丹丹 更多>> 相关机构: 内蒙古科技大学 更多>> 发文基金: 内蒙古自治区自然科学基金 国家自然科学基金 内蒙古自治区高等学校科学研究项目 更多>> 相关领域: 自动化与计算机技术 更多>>
不确定XML的Top-k关键字查询算法研究 被引量:3 2014年 目前不确定XML的Top-k关键字查询仅返回概率值排在前k的根节点,需要进一步的处理才能构建满足特定条件下的子树,效率低下.针对这一问题,定义了一种新的基于最小相关联通子树的Top-k查询语义SRCT-Top-k(smallest related connected subtree Top-k),SRCT-Top-k查询返回概率值排在前k的最小相关联通子树,并提出基于动态Keyw ord数据仓的Pr ListTop-k算法来处理SRCT-Top-k查询.Pr List Top-k算法仅扫描一次动态Keyw ord数据仓就能构建满足特定条件下的子树,并制定了过滤策略减少了中间结果.理论分析和实验结果表明,Pr List Top-k是一种高效的不确定XML的Top-k查询算法. 张晓琳 苏龙超 韩雨童 王静宇关键词:TOP-K 关键字查询 基于序列的不确定XML整体小枝查询技术 2013年 针对基于序列的不确定XML小枝模式匹配算法需要子序列匹配和结构过滤两个阶段,而导致查询效率低的问题,提出一种以PrTRIM算法为基础的整体小枝模式匹配算法。H-PrTRIM算法将PrTRIM算法中子序列匹配和结构过滤两个阶段合并,在子序列匹配的同时进行结构过滤,使子序列匹配得到的结果就是查询的最终结果,解决了由于子序列匹配产生过多的中间结果而降低查询效率的问题。实验结果表明,H-PrTRIM算法的效率高于PrTRIM算法,应用于查询大文档和结构复杂的查询语句时更能体现出优势。 王鹏 张晓琳基于LSPI索引的不确定XML查询处理算法 被引量:1 2014年 针对目前已有XML通配符查询处理需将文档中所有元素标签读入内存中,匹配效率低的问题,提出一种新的基于LSPI(leaf sibling of path information)索引的不确定XML包含通配符和复杂谓词的查询处理算法Prob-BooleanStarTwig。算法基于有效过滤策略自底向上进行模式匹配,将通配符转换成A-D关系和层次信息约束,解决传统通配符匹配问题,避免多次扫描查询模式,提高查询速度。理论分析和实验结果表明,算法的查询效率明显优于已有的算法。 张晓琳 韩雨童 苏龙超 谭跃生不确定XML序列匹配关键技术研究 2014年 不确定XML小枝模式匹配的关键技术包括不确定XML文档格式,互斥节点识别,实例树概率计算和概率阈值过滤.目前,不确定XML二元结构连接和整体匹配方法无法充分利用算法的特点解决关键技术问题,针对这一不足,将序列匹配应用到不确定XML小枝模式匹配,并对不确定XML序列匹配关键技术问题进行分析和证明,理论分析和实验结果表明序列匹配方法应用到不确定XML小枝模式匹配是有效的. 张晓琳 王鹏不确定XML序列匹配等价性研究 被引量:1 2014年 为了保持等价性,将序列匹配应用到不确定XML小枝模式匹配,需要重新考虑假警报和假不予考虑问题。针对这一问题,对不确定XML序列匹配中模式树序列化、子序列匹配和结构过滤的等价性进行分析,使得序列匹配应用到不确定XML小枝模式匹配的理论依据更为完备;通过实验对不确定XML序列匹配的等价性和效率进行验证。理论分析和实验结果表明,序列匹配应用到不确定XML与普通XML是等价的,具有较高的效率。 张晓琳 王鹏关键词:等价性 基于Map-Reduce的XML区间编码方案 被引量:1 2015年 将XML文档区间编码思想和云计算相结合,提出Hadoop环境下基于Map-Reduce的并行的编码方案。该方案提出PXMR算法,解决了非同一分片内节点的区间编码。实验结果表明,相对非并行区间编码,PXMR是一种并行的快速有效的编码方案。 张换香 张晓琳 刘立新 李海荣关键词:HADOOP MAP-REDUCE XML 基于扩展倒排索引的不确定XML关键字查询算法 被引量:4 2015年 现有的不确定XML关键字查询算法均需遍历不确定XML文档,并且算法在执行过程中需要频繁的字符串比较,造成时间浪费。针对上述问题,提出基于扩展倒排索引的不确定XML关键字查询算法Pr E。扩展倒排索引有效地存储了不确定XML文档中节点的相关信息,根据扩展倒排索引即可初始化动态哈希表和序号编码链表,并且Pr E算法在执行过程中利用整数的比较代替了字符串的比较。理论分析与实验结果表明,Pr E算法是一种高效的不确定XML关键字查询算法。 牛大伟 苏龙超 韩雨童 张晓琳关键词:关键字查询 PRE RLPI索引:一种处理连续不确定XML索引 2016年 针对目前连续不确定XML数据的概率阈值范围查询,提出一种新的包含路径索引和值索引的RLPI(Reverse Label Probabilistic Index)索引。RLPI路径索引以逆序标签路径作为索引项,通过逆序标签路径可区分不同路径上的同名节点,更具针对性地定位所需节点。RLPI值索引借鉴U树的思想,通过提前计算并存储叶子节点的相关信息,以减少查询中需处理的元素数目,并且其对满足任意连续pdf(probability density function)的不确定数据均适用。理论分析和实验结果表明,RLPI索引技术有效地提高了查询处理的性能。 张晓琳 郭丹丹 韩雨童 郝琨 谭跃生关键词:XML 索引 一种基于序列的不确定XML小枝匹配方法 被引量:1 2014年 针对目前不确定XML小枝模式查询处理方法中繁复的结构连接操作和不便于概率阈值过滤的缺点,提出一种新颖的基于序列的不确定XML小枝模式查询处理方法。该方法包括不确定XML序列索引的建立以及基于序列匹配的查询算法,与现有的不确定XML查询处理方法相比不需要繁复的结构连接操作,而且可以灵活地进行三次概率阈值过滤。理论分析和实验表明,该方法便于概率阈值过滤,同时具有较高的查询效率。 张晓琳 王鹏关键词:小枝模式 高效不确定XML复杂Twig查询处理算法 2014年 针对目前普通XML复杂Twig查询处理算法易造成大量空间和时间浪费,且不能完全适用于不确定XML的问题,提出一种基于P-文档模型的不确定XML复杂Twig查询处理算法Prob-BooleanTwig,处理包含AND,NOT和OR复杂谓词的查询模式。算法在扩展了EDewey编码的基础上,构建路径叶子节点索引,进行自底向上的查询模式匹配,避免了对查询模式的多次扫描。理论分析和实验结果表明,Prob-BooleanTwig算法具有高效性。 张晓琳 韩雨童 苏龙超 刘立新关键词:路径索引 查询处理