邱伯仁 作品数:5 被引量:7 H指数:2 供职机构: 复旦大学计算机科学技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 上海市科学技术委员会资助项目 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
Gen-Cluster:一个基因表达数据的高维聚类算法 被引量:4 2008年 基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 熊赟 邱伯仁 张坤 朱扬勇关键词:高维数据挖掘 聚类 基因表达数据 一种优化多重过滤的序列查询算法 被引量:2 2010年 序列数据一类重要的数据类型,在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段.在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力,即设计能快速过滤与查询序列不相关序列集的过滤器十分重要.提出了结合序列距离的度量性质和序列自身特征的多重过滤算法SSQ_MF,SSQ_MF使用了长度过滤器、前缀过滤器和基于参考集的过滤器,使得算法过滤能力较基于单一过滤器算法进一步增强.此外,设计了有关数据结构对查询数据库的一些统计信息进行了预计算和保存,有效估计了各过滤器的过滤集大小,并构建了一个由过滤集大小确定的最优过滤顺序模型,使得算法的过滤代价最低.实验结果表明,算法SSQ_MF的查询性能优于单一过滤器算法和随机过滤顺序的多过滤器算法. 戴东波 汤春蕾 邱伯仁 熊赟 朱扬勇关键词:序列数据 相似性查询 过滤器 度量空间 BioIndex:一种生物序列相似性查询的高效索引 被引量:1 2009年 有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。 邱伯仁 熊赟 朱扬勇关键词:索引 生物序列 生物数据库 数据模型 查询优化 一种优化多重过滤的序列查询算法 序列数据一类重要的数据类型,在文本、web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种获取有用信息的重要手段。在大型序列数据库中进行高效相似性查询的关键因素之一就是查询算法的过滤能力。提出了结合序列... 戴东波 邱伯仁 熊赟 朱扬勇关键词:序列数据 相似性查询 生物序列的索引研究及其应用 在生物领域研究中,在巨量生物数据库中进行生物序列相似性查询是一项经常性的工作,在探索生物学知识和生命活动规律的过程中扮演着重要角色。然而在大型的长序列数据库中用朴素的完全搜索方法来进行相似性查询,其效率是非常低下的。因此... 邱伯仁关键词:索引 生物序列 生物数据库 查询优化 文献传递