国家高技术研究发展计划(2006AA02Z329)
- 作品数:4 被引量:19H指数:2
- 相关作者:熊赟朱扬勇陈越戴东波张坤更多>>
- 相关机构:复旦大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- Qnet-BSTM:一个转录因子结合位点文本挖掘算法
- 转录调控是后基因组时代研究的热点之一,转录因子结合位点(或顺式调控元件)是一类非常重要的功能元素.构建转录因子结合位点数据库是转录调控中的重要工作,从日益增长的相关文献中挖掘转录因子结合位点是构建转录因子结合位点数据库的...
- 杨青郑广勇熊赟朱扬勇
- 关键词:转录因子结合位点文本挖掘生物信息学
- 文献传递
- ProFaM:一个蛋白质序列家族挖掘算法被引量:2
- 2007年
- 有效分析蛋白质家族是生物信息学的一项重要挑战,聚类成为解决这一问题的主要途径之一.基于传统序列比对方法定义蛋白质序列间相似关系时,假设了同源片断间的邻接保守性,与遗传重组相冲突.为更好地识别蛋白质家族,提出了一种蛋白质序列家族挖掘算法ProFaM.ProFaM首先采用前缀投影策略挖掘表征蛋白质序列的模式,然后基于模式及其权重信息构造相似度度量函数,并采用共享最近邻方法,实现了蛋白质序列家族聚类.解决了以往方法在蛋白质模式挖掘及相似度设计中的不足.在蛋白质家族数据库Pfam上的实验结果证实了ProFaM算法在蛋白质家族分析上有良好的结果.
- 熊赟陈越朱扬勇
- 关键词:蛋白质序列蛋白质家族聚类数据挖掘生物信息学
- Gen-Cluster:一个基因表达数据的高维聚类算法被引量:4
- 2008年
- 基因表达数据聚类是分析基因之间共调控关系的重要手段.挖掘子空间中表达值存在差异但变化趋势保守的序列已成为基因表达数据聚类的主要研究内容之一.在N-同维趋势相似定义的基础上,提出了一个基因表达数据的高维聚类算法Gen-Cluster,将基因表达值转化为序列形式,采用无重复投影且无候选生成的序列模式挖掘策略自底向上挖掘N-同维趋势模式,并解决了OP-Cluster算法不能挖掘含有项集的序列模式问题,最终得到表达值变化趋势保守的基因序列形成的N-同维趋势簇.实验采用Breast Tumor和MicroRNA表达数据集,验证挖掘结果是有效的,且较OP-Cluster算法表现更高效率,并涵盖其结果.
- 熊赟邱伯仁张坤朱扬勇
- 关键词:高维数据挖掘聚类基因表达数据
- MS-BioSM:一个基于多支持度生物序列模式挖掘算法
- 1引言随着基因组测序工作的蓬勃发展,20年来科学家已经完成了包括人类自身在内的约60种生物的全基因组数据测序,产生了海量生物序列数据。生
- 张锐熊赟陈越朱扬勇
- 关键词:BIOINFORMATICS
- 文献传递
- 序列数据相似性查询技术研究综述被引量:13
- 2010年
- 序列数据在文本、Web访问日志文件、生物数据库等应用中普遍存在,对其进行相似性查询是一种提取有用信息的重要手段.近年来,随着各种科学计算的发展和序列数据的大量产生,序列相似性查询已经成为数据分析领域一个研究热点.其涉及到的几个重要问题有面向各种应用领域的相似性度量及其相互之间的关系;随机序列数据中距离分布的统计信息及其对分析查询算法性能的作用;在大规模数据中,各种高效回答相似性查询的关键技术及各自的优缺点比较.总结了序列数据的分类和特点,给出了几种序列数据相似性度量和随机序列之间距离分布的统计信息,并进一步分析了这些度量之间的关系.接着给出了几种序列相似性查询的类型,以及序列相似性查询要解决的核心问题.在此基础上,针对各种序列相似性查询关键技术进行分类和评价.最后,讨论了关于序列数据相似性查询研究所面临的挑战,并归结了未来的研究方向.
- 朱扬勇戴东波熊赟
- 关键词:序列数据相似性查询
- ClaFactor:一个基于支持向量机的人类转录因子分类方法
- 转录因子识别对于理解转录机制起着重要作用,转录因子根据DNA绑定域的结构可以分为四大类.随着数据库中新蛋白序列的快速增加,设计一个高通量、高准确率的分类器来预测新蛋白是否转录因子及其类别是非常重要的,提出了一个基于支持向...
- 周强陈越熊赟朱扬勇
- 关键词:转录因子支持向量机
- 文献传递
- Cla_Factor:一个基于支持向量机的人类转录因子分类方法
- 2007年
- 转录因子识别对于理解转录机制起着重要作用,转录因子根据DNA绑定域的结构可以分为四大类.随着数据库中新蛋白序列的快速增加,设计一个高通量、高准确率的分类器来预测新蛋白是否转录因子及其类别是非常重要的,提出了一个基于支持向量机的人类转录因子分类算法Cla_Factor. Cla_Factor使用蛋白域作为向量基来表示蛋白质序列,在此高维向量表示方法下利用支持向量机来对人类转录因子分类.通过对来自于Transfac, Swiss_Prot的数据进行交叉验证测试、推广能力测试,证明了Cla_Factor算法同其他算法相比,具有更高准确率、敏感性、特异性以及推广能力.
- 周强陈越熊赟朱扬勇
- 关键词:转录因子支持向量机