上海市科学技术委员会资助项目(08511500203)
- 作品数:1 被引量:2H指数:1
- 相关作者:熊赟邱伯仁朱扬勇汤春蕾戴东波更多>>
- 相关机构:复旦大学更多>>
- 发文基金:上海市科学技术委员会资助项目上海市教育委员会重点学科基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种优化多重过滤的序列查询算法被引量:2
- 2010年
- 序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法.
- 戴东波汤春蕾邱伯仁熊赟朱扬勇
- 关键词:序列数据相似性查询过滤器度量空间