毛逸清 作品数:12 被引量:14 H指数:2 供职机构: 军事医学科学院卫生勤务与医学情报研究所 更多>> 发文基金: 国防科技重点实验室基金 北京市科技新星计划 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 医药卫生 生物学 农业科学 更多>>
大规模EST序列聚类的并行算法研究进展 被引量:2 2006年 EST是携带有表达基因部分遗传信息的cDNA片段,EST聚类是将来自同一个基因的具有重叠部分的EST整合到单一的类中,是进行后续基因表达数据分析的必要步骤。传统的串行聚类方法的计算复杂度高,对内存要求大,不适于进行大规模聚类计算。本文主要介绍了EST聚类的并行处理方式、软硬件支持环境,适用于大规模EST聚类的并行算法和软件,比较了几种现有软件的算法、计算速度和内存要求等,并讨论了现有大规模聚类算法的优缺点。 毛逸清 赵东升 李稚锋 杭兴宜 骆志刚 张成岗关键词:EST序列 聚类分析 构建基于EBI数据库的本地SRS服务系统 2011年 为了建立基于EBI数据库的本地SRS服务系统,进而为生物医学研究人员提供方便、快速搜索EBI常用生物数据库的web服务,同时提供一套技术机制为其他生物医学研究机构建设自己的SRS服务系统提供参考。在Linux系统和Tomcat环境下安装调试EBI提供的SRS8.1学术版软件,并利用perl和shell程序设计语言开发EBI数据库的自动下载和定期更新模块。完成了本地SRS系统的安装和测试,实现了EBI数据库的自动下载和更新机制,目前系统已经正常运行。 毛逸清 李江域 王小磊 赵东升关键词:SRS EBI 开源云计算框架及其在生物信息处理中的应用 面对基因组学等生物医学数据量的迅猛飙升,科研机构面临着巨大的数据存储和分析需求。云计算是网格计算、分布式计算和并行计算的发展,开源云系统在满足研究机构需求方面具有巨大的前景。介绍了云计算框架的基本概念和主要的开源云计算平... 毛逸清 赵东升关键词:医学数据 生物信息 云计算 开源系统 基于高通量测序数据的微生物检测算法 被引量:2 2013年 目的设计一种基于高通量测序数据的功能强大、处理速度快且不依赖于运行环境的本地化的微生物检测算法。方法对微生物基因组进行分组,每次使用一组微生物基因组提取映射到其上的测序数据并滤除数据中的人类基因组数据,然后对序列进行拼接和拼接片段比对。如果根据比对结果检测出微生物种属则流程结束,否则使用下一组微生物基因组进行分析。若使用所有微生物基因组分析结束后仍未确定微生物种属,则滤除剩余的测序序列中的人类测序数据并进行拼接,拼接片段通过序列比对无法匹配到微生物基因组,则将这些拼接片段归为未知病原微生物的基因组片段。结果利用新的检测算法对模拟数据和实际测序数据进行分析,以RINS作为对比。对于已知病原微生物,新算法的平均处理时间为75 min,RINS的平均处理时间为767 min,两个算法检测结果一致,新算法得到的拼接序列更长。对于未知病原微生物样本,新算法检测的平均处理时间为64min,RINS的为584min,新算法得到了较完整的原始序列。对于实测数据,新算法的平均处理时间为23 min,RINS的为68 min,检测结果一致。结论本文实现的微生物检测算法能够对微生物进行准确、快速的检测,同时,新的检测算法可以发现未知的微生物并获取未知微生物的基因组片段。 李江域 王小磊 刘阳 毛逸清 赵东升 王玉民关键词:高通量测序 微生物检测 构建NCBI镜像FTP数据库及其应用 被引量:2 2010年 目的建立一个FTP服务器为院内生物医学研究人员提供快速下载NCBI常用生物数据库的FTP服务。方法采用Linux系统和perl、shell程序设计,构建FTP服务系统。结果与结论系统实现了数据下载、更新、系统管理等功能,并进行了测试,目前系统已经上线服务。 毛逸清 李江域 王小磊 赵东升关键词:FTP服务器 NCBI 数据库 局部序列比对算法及其并行加速研究进展 被引量:3 2012年 随着新一代测序技术的发展,传统的序列比对工具已无法满足测序产生的海量生物学数据分析处理的需求,研究如何利用最新的计算技术加速序列比对过程具有十分重要的意义。本文回顾了常用的局部序列比对算法,介绍了基于并行计算原理的序列比对算法的加速优化策略和主要进展,详细说明了如何利用最新的图形处理器(GPU)计算技术实现高性能的BLAST(basic local alignment search tool)比对算法。最后,结合实际需求,提出和讨论了综合利用云计算和GPU计算实现高性能、高能效的序列比对平台的研究思路。 刘阳 王小磊 李江域 毛逸清 赵东升关键词:并行计算 云计算 HADOOP GPU计算 利用SFU开发Windows和Linux异构环境下的分布式生物信息学应用 被引量:1 2006年 M icrosoft SFU是一个W indows环境下的高性能UNIX子系统和互操作工具,它允许W indows和UNIX计算机共享数据、安全策略和应用程序。本文通过实例,介绍如何利用SFU将L inux下的B lat软件在W indows系统中重新编译运行,并与L inux计算机共享生物序列数据库,构建异构网络环境下的分布式生物信息学应用。实践证明该技术可集成W indows和L inux的计算能力,提高计算资源的使用效率。 赵东升 王小磊 毛逸清 李稚锋 张成岗 骆志刚关键词:WINDOWS LINUX 生物信息学 计算生物学 基于CUDA的BLASTN加速研究 2013年 目的利用图形处理器(graphic processing unit,GPU)计算技术对广泛使用的生物信息学序列比对工具BLASTN加速,服务于新一代测序技术条件下海量生物序列数据分析任务。方法采用计算统一设备架构(compute unified device architecture,CUDA)并行计算架构,从GPU多线程并行和多GPU并行两个维度,对核酸序列比对工具BLASTN的种子查找阶段和不允许空位延伸阶段进行并行加速。结果基于CUDA的CUDA-BLASTN取得了显著的加速效果,与FSA-BLAST相比,采用单个Nvidia Tesla C2075显卡在以上两阶段取得了最高达26.8倍的加速比,而且结果准确度没有降低。CUDA-BLASTN特别适合于中长查询序列对长序列数据库的比对任务。结论利用GPU计算可在较大程度上加速序列比对过程,性价比较高,具有很好的应用前景。 刘阳 王小磊 毛逸清 李江域 赵东升关键词:CUDA 并行计算 利用Galaxy与高性能计算集群构建本地化一站式生物信息学平台 被引量:1 2013年 目的构建本地化的高性能一站式数据分析平台,为生物医学研究的相关科研人员提供便捷高效的计算分析服务。方法将Galaxy软件部署在计算集群上,集成工具软件和数据集;利用分布式资源管理应用接口(DRMAA)实现与Sun Grid Engine的协同运作,自动调度和分配计算资源;并在集群上构建稳定的Web服务、FTP服务和管理数据库。结果该平台已投入试运行并在不断完善,峰值计算能力达到每秒10万亿次,存储容量为40TB,提供序列比对、短串映射、基因注释、转录组分析、宏基因组分析及进化分析等多种功能,以及容量约为700 GB的人类基因组、病毒、细菌、真菌等参考数据库。结论该平台具备大规模数据分析的能力,能够解决高通量测序所带来的海量生物数据的存储与处理等问题。与在普通服务器上进行数据分析相比,该平台的计算集群能极大地加快数据处理过程,提高研究效率。 王小磊 李江域 毛逸清 刘阳 王玉峰 赵东升关键词:本地化 一站式 生物信息学 GALAXY 基于高通量测序数据的微生物检测算法研究进展 被引量:3 2015年 新一代高通量测序技术的发展,推动了多个相关研究领域的发展。国际上许多研究机构正在研究利用高通量测序数据进行微生物检测的算法,目前已有一些基于高通量测序数据的微生物检测算法流程设计成功并公开发布。该文通过调研利用高通量测序数据进行微生物检测的相关文献,研究已发布的基于高通量测序数据的微生物检测算法的功能和实现流程,分析几个有代表性算法的优点和不足。最后,对这些检测算法的设计思路进行总结和分类,提出基于高通量测序数据的微生物检测算法的改进设想。 李江域 王小磊 毛逸清 赵东升关键词:高通量测序 微生物检测 生物信息学