张倩倩
- 作品数:2 被引量:1H指数:1
- 供职机构:东南大学生物科学与医学工程学院生物电子学国家重点实验室更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:生物学更多>>
- 关联性特征在宏基因组分装中的应用被引量:1
- 2013年
- 随着高通量测序技术的成熟,宏基因组学已经成为了一门新兴的热门学科。从混合的微生物测序片段中正确的分装DNA片段一直是一个挑战。分装的准确性直接影响宏基因组学研究的深度和效率,提高分装准确性的关键在于提取出一种有效的宏基因组测序片段的序列特征。目前主流分装方法可以分为两类,一类是基于序列相似性比较;另一类是基于序列特征。本文深入研究碱基之间的关联性,运用一种基于碱基关联性特征的分装方法(碱基对关联性),利用机器学习算法实现准确的分装,在对不同物种层次不同复杂度的模拟宏基因组数据集进行分装时都能保持良好的性能。并且将此方法同无监督分装软件MetaCluster3.0以及那些单纯使用三联、四联核苷酸频率进行分装的算法做对比,并对结果进行了深入讨论。
- 张倩倩曹唱唱丁啸孙啸
- 关键词:宏基因组
- 一种基于关联性特征的宏基因组测序片段分装方法被引量:1
- 2013年
- 20世纪末宏基因组学的概念被首次提出,从此打开了利用宏基因组学方法和技术研究微生物的大门.随着高通量测序技术的成熟,宏基因组学已经成为了一门新兴的热门学科.序列分析是宏基因组学研究的基础,而序列分析的一个重要环节就是测序片段的分装(binning).分装的准确性直接影响宏基因组学研究的精度和效率,提高分装准确性的关键在于提取出一种反映宏基因组测序片段物种分类的序列特征.目前主流分装方法利用的都是基因组序列的碱基组成性特征.本文深入研究序列的关联性特征,提出了一种基于关联性特征的分装方法,结合机器学习算法实现准确的分装,在对不同物种层次和不同复杂度的模拟宏基因组测序数据集进行分装时都能保持良好的性能.通过对比,发现此方法分装的正确率和稳定性都要优于目前国际上的无监督分装算法以及那些单纯使用三联、四联核苷酸出现频率进行分装的算法.
- 丁啸张倩倩曹唱唱孙啸
- 关键词:宏基因组