随着质谱技术的迅猛发展,通过色谱质谱联用(liquid chromatography mass spectrometry,LC-MS)技术进行化合物鉴定成为近年来的研究热点。针对化合物LC-MS鉴定过程中便捷性和效率问题,提出了质谱谱图数据预处理方法,将包含两列数据的质谱文件转换成便于后续并行化处理的三列数据文件,简化了化合物相似度计算;同时结合MapReduce技术,对标准品库进行等价切分,提出了基于MapReduce计算模型的化合物LC-MS鉴定算法。实验结果表明,这种基于MapReduce的并行化方式可以大大提高化合物LC-MS鉴定的效率。
由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园“三方两地”共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment),从中国陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The Tree of Life),建立生命之树信息平台及其利用体系,为最终在我国建立具有国际影响的,能很好地兼容物种分类、地理分布、形态性状、化石信息以及DNA信息的物种库(Species Bank)创造条件。DarwinTree旨在为科研人员提供数据和分析并举的工作平台,该平台将承担数据汇集和面向实际科研工作应用的双重作用。本文发布的数据集包括:(1)DarwinTree基础数据集:来自国际公共序列数据的标记处理得到的分子标记数据及其与任意阶元物种分类名称对应的统计数据集;(2)DarwinTree自测序数据集:面向中国陆地植物研究的补充测序序列数据;(3)DarwinTree中国维管植物进化数据集:已构建的中国维管植物属系统发育树的数据(Generic tree of Chinese vascular plants)。