美国中华医学基金(03-787)
- 作品数:3 被引量:6H指数:1
- 相关作者:张正国万莉莉余希田李丹亚胡铁军更多>>
- 相关机构:中国医学科学院北京协和医学院中国矿业大学更多>>
- 发文基金:美国中华医学基金更多>>
- 相关领域:文化科学自动化与计算机技术医药卫生生物学更多>>
- 基于向量空间模型的文献相关性数据库的研究与实现被引量:5
- 2008年
- 探讨"相关性"的概念,简述文献相关性数据库的研究现状,提出基于词表和特征项提取的向量空间模型,并在此基础上设计、构建中国生物医学工程文献相关性数据库及其检索系统。
- 余希田万莉莉胡铁军李丹亚
- 关键词:向量空间模型
- TissueMap:人类基因和蛋白质表达数据库被引量:1
- 2008年
- 表达信息(或者是组织特异性)是基因和蛋白质最重要的自然属性之一。在当前主要的序列数据库中,对这些信息的描述没有一致的标准,同时,表达量的描述也没有统一。为了更好地利用基因和蛋白质的表达信息,建立了人类基因和蛋白质表达数据库,命名为TissueMap(http://168.160.62.35/cgi-bin/tissuemap/index.pl)。TissueMap整合了来自Swiss-prot和UniGene两个数据库的表达信息,并把跨膜蛋白信息从Swiss-prot专门抽取出来作为一个独立的库提供用户搜索。这个数据库规范化了描述表达信息时使用的组织名称和表达水平。目前,数据库中共有45389条基因,11377条蛋白质,和2796条人类跨膜蛋白的表达信息,将随着Unigene和UniProt同步更新。
- 唐鹤云杨啸林陈兴新张正国
- 关键词:基因蛋白质组织特异性数据库
- 主成分分析在基因芯片聚类分析中的适用性评估
- 2009年
- 目的探讨在基因芯片聚类分析前对数据进行主成分分析是否有助于提高聚类的准确性。方法选取3组包含大量被生物学家人为分类基因的芯片数据集Budding yeast、Saccharomyces cerevisiae、Central nervous system作为实验数据,分别计算对原数据直接聚类和提取主成分后聚类的结果,并以信息变化量为指标衡量这些结果与人为分类的匹配度。采用启发式算法搜寻最优主成分组合,比较欧几里德距离和相似系数2种距离度量方法以及层次聚类和K-重心聚类2种聚类算法的结果。结果在3组数据集中,层次聚类算法相比K-重心聚类算法效果均略好,且以主成分代替原数据进行聚类分析都没有显著提高聚类的准确性,有些情况下甚至不如后者。仅在Saccharomyces cerevisiae数据集中,当主成分个数足以覆盖原数据中90%-95%方差时,特定的主成分组合才展现出一定优势,但这种组合与主成分大小顺序并无规律可循。结论在基因芯片数据模型不清时,应避免盲目地使用数据中提取的主成分作为聚类分析的输入。
- 马宁张正国
- 关键词:主成分分析寡核苷酸序列分析聚类分析计算生物学