国家自然科学基金(60573093) 作品数:8 被引量:56 H指数:4 相关作者: 朱扬勇 熊赟 陈越 张坤 邱伯仁 更多>> 相关机构: 复旦大学 上海生物信息技术研究中心 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 自然科学总论 更多>>
语义异构生物数据源中的数据集成与更新 被引量:8 2008年 针对生物数据源的分布性、异构性和动态性等特性,探讨生物信息技术服务支撑系统整体解决方案,构建基于基因本体的信息集成模式以实现生物语义学上的数据集成。设计一种以半结构化形式规范生物元数据及基于MD5算法的增量更新技术,用以解决通用扩展性和效率问题,实现生物数据仓库中数据的共享并提高管理效率。 杨森 夏燕 曹顺良 邓绪斌 朱扬勇关键词:基因本体 半结构化 MD5算法 Gen-Cluster:一个基因表达数据的高维聚类算法 被引量:4 2008年 基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果. 熊赟 邱伯仁 张坤 朱扬勇关键词:高维数据挖掘 聚类 基因表达数据 MS-BioSM:一个基于多支持度生物序列模式挖掘算法 1引言随着基因组测序工作的蓬勃发展,20年来科学家已经完成了包括人类自身在内的约60种生物的全基因组数据测序,产生了海量生物序列数据。生 张锐 熊赟 陈越 朱扬勇关键词:BIOINFORMATICS 文献传递 Qnet-BSTM:一个转录因子结合位点文本挖掘算法 转录调控是后基因组时代研究的热点之一,转录因子结合位点(或顺式调控元件)是一类非常重要的功能元素.构建转录因子结合位点数据库是转录调控中的重要工作,从日益增长的相关文献中挖掘转录因子结合位点是构建转录因子结合位点数据库的... 杨青 郑广勇 熊赟 朱扬勇关键词:转录因子结合位点 文本挖掘 生物信息学 文献传递 DnaReSM:一个基于多支持度的DNA重复序列挖掘算法 被引量:4 2007年 DNA序列分析研究是生物信息学的重要内容之一。基因组的基因相关区域和基因外区域中含有大量重复序列,尽管目前大多数重复序列的功能还没能肯定,但它们在遗传分析中已起重要作用。挖掘DNA重复序列成为DNA序列分析的关键。自底向上的挖掘算法中间过程产生很多短的、甚至单字符的模式,使得挖掘效率降低;另一方面,目前序列模式挖掘算法在多序列挖掘中表现出高效性,但由于单支持度定义的局限导致无法在挖掘过程中同时找到单条DNA序列中的重复序列,因此不能很好地适用于DNA重复序列挖掘。本文基于新的多支持度序列模式挖掘框架,提出了一种融合自底向上和自顶向下策略挖掘DNA重复序列的新算法DnaReSM,其结果为生物学相关实验提供基础。实验结果表明,DnaReSM探测算法能有效挖掘DNA重复序列。 熊赟 陈越 朱扬勇关键词:数据挖掘 DNA序列 无重复投影数据库扫描的序列模式挖掘算法 被引量:25 2007年 序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan. 张坤 朱扬勇关键词:序列模式挖掘 投影数据库 前缀树 ProFaM:一个蛋白质序列家族挖掘算法 被引量:2 2007年 有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断间的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果. 熊赟 陈越 朱扬勇关键词:蛋白质序列 蛋白质家族 聚类 数据挖掘 生物信息学 BioIndex:一种生物序列相似性查询的高效索引 被引量:1 2009年 有效管理生物数据并提供高效的查询方法是生物信息处理的重要研究内容。BioSeg是一个新的生物序列数据模型。查询优化研究是生物数据库管理系统开发的重要内容之一。研究当前生物数据索引技术,针对BioSeg数据模型的特点和生物序列相似性查询需求设计了一种新的生物序列数据索引BioIndex,并设计相应的查询算法。首先,使用MEME(Multiple EM for Moeif Elicit-ation)算法挖掘生物序列集中的序列模式作为索引建立索引序列库;之后,在索引序列库中查找与查询序列最相似的索引序列,将其对应的序列集作为候选集;再在候选集中查找与查询序列最相似的序列。在真实生物序列数据集上的实验表明使用新的生物序列数据索引BioIndex的序列查询算法提高了序列查询的效率。 邱伯仁 熊赟 朱扬勇关键词:索引 生物序列 生物数据库 数据模型 查询优化 ClaFactor:一个基于支持向量机的人类转录因子分类方法 转录因子识别对于理解转录机制起着重要作用,转录因子根据DNA绑定域的结构可以分为四大类.随着数据库中新蛋白序列的快速增加,设计一个高通量、高准确率的分类器来预测新蛋白是否转录因子及其类别是非常重要的,提出了一个基于支持向... 周强 陈越 熊赟 朱扬勇关键词:转录因子 支持向量机 文献传递 Cla_Factor:一个基于支持向量机的人类转录因子分类方法 2007年 转录因子识别对于理解转录机制起着重要作用,转录因子根据DNA绑定域的结构可以分为四大类.随着数据库中新蛋白序列的快速增加,设计一个高通量、高准确率的分类器来预测新蛋白是否转录因子及其类别是非常重要的,提出了一个基于支持向量机的人类转录因子分类算法Cla_Factor. Cla_Factor使用蛋白域作为向量基来表示蛋白质序列,在此高维向量表示方法下利用支持向量机来对人类转录因子分类.通过对来自于Transfac, Swiss_Prot的数据进行交叉验证测试、推广能力测试,证明了Cla_Factor算法同其他算法相比,具有更高准确率、敏感性、特异性以及推广能力. 周强 陈越 熊赟 朱扬勇关键词:转录因子 支持向量机