国家自然科学基金(10271061)
- 作品数:7 被引量:15H指数:3
- 相关作者:沈世镒阮吉寿胡刚张华开波更多>>
- 相关机构:南开大学清华大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:理学自动化与计算机技术更多>>
- 超级多重基因组序列比对算法被引量:2
- 2005年
- 大量同源的长基因组序列的多重比对需要高效率的比对算法。论文开发出一个新的比对工具“超级多重基因组比对”(简称SMGA),该系统是建立在序列突变与比对的“模代数”理论基础上专为长基因组序列的多重比对设计的。SMGA在一台主频2.8G的PC机上完成平均长度约5M的9条有机菌基因组的多重比对的时间大约为35min。论文还使用模拟数据对SMGA的比对精确度做了估计。
- 呼广跃沈世镒
- 关键词:后缀树
- 生物序列的语义分析与第二密码规则的探索(续)被引量:3
- 2004年
- 本文继续讨论蛋白质一级结构序列的语义结构,利用组合分析与图论方法讨论 Swiss - Prot 数据 库的组合结构,给出 Swiss - Prot 数据库中蛋白质一级结构序列的关键词与核心词的定义、搜索 算法与特性参数。并由此给出蛋白质一级结构序列的核心词词典,并由此讨论数据库的复杂性问题、同源蛋白质的分类、预测与比对等问题。
- 沈世镒余涛开波阮吉寿
- 氨基酸在蛋白质空间结构中的深度倾向性因子被引量:4
- 2007年
- 用统计和几何方法给出了氨基酸在蛋白质空间结构中的深度计算,并利用PDB数据库得到了不同氨基酸在蛋白质中的深度倾向性因子,并得到了这些倾向性因子与氨基酸的物理、化学综合特性的相关性质.
- 沈世镒胡刚张华
- 蛋白质二级结构的条件隐Markov性及其预测问题被引量:4
- 2003年
- 蛋白质二级结构预测问题自1957年首次被提出迄今已有40多年了,从知道的文献中可以得出如下信息:在统计意义之下,蛋白质序列中氨基酸之间的相互作用较弱,所以,统计方法中所依赖的独立性假设虽然不是从物理背景中得来的,但的确有其合理性和方便之处;交互信息准则优于均方误差准则;信息和统计的思想和方法在预测二级结构中不可低估;加入蛋白质的一级结构之外的信息可帮助提高二级结构预测的精度;而直接从一级结构出发无附加信息的情况下预测二级结构,现存在的预测方法的预测精度仍然无较大突破;预测精度和所使用的蛋白质样本序列在总体样本中的覆盖率,是评估各种预测方法的有效性的两个重要指标。本文作者建立了一个集蛋白质一、二级结构为一体联合结构模型,并将上述信息囊括在其中。由该模型首先得到蛋白质一、二级结构的信息与统计特性,然后利用这些特性分别对蛋白质一、二级结构中各种变量的信息传递关系及隐Markov性进行定量分析和确切地统计描述。最后给出直接从一级结构出发预测二级结构的几个原则。
- 沈世镒阮吉寿
- 关于多重序列比对距离矩阵的一点注记被引量:1
- 2003年
- 因为多重序列比对的最优解问题是一个非易计算问题,所以在生物信息学中,对多重序列分析常常采用两两序列比对来实现。因此由两两比对所产生的距离矩阵在多重序列比对分析中起重要作用。证明了由两两序列比对所产生的距离满足距离关系的三公理条件,从而使两两序列比对分析在距离空间中进行。
- 沈世镒
- DNA计算中突变误差的纠正被引量:1
- 2006年
- 文章重点讨论了在DNA计算中突变误差的处理问题,其中包括突变误差的数据空间、突变误差的自动纠正和纠错码在DNA操作系统设计中的应用问题。并在分析突变误差数据空间、突变误差纠错码的基础上,提出了解决DNA计算中突变误差问题的方案。
- 沈世镒张拓
- 关键词:DNA计算
- 广义差错长序列的数据库搜索及其快速算法
- 2006年
- 所谓广义差错是指同时可能具有符号改变、插入与删除的差错,在数据库搜索中如何对具有广义差错的语句进行搜索是近期计算科学发展的重要问题,尤其是对长序列的搜索问题的研究还很少开展。论文对此问题进行讨论,并给出它的快速算法。
- 沈世镒胡刚夏树涛