李瑞琳 作品数:11 被引量:10 H指数:2 供职机构: 中国科学院计算机网络信息中心 更多>> 发文基金: 国家自然科学基金 中国科学院“百人计划” 中国科学院战略性先导科技专项 更多>> 相关领域: 自动化与计算机技术 医药卫生 生物学 理学 更多>>
高可用弹性宏基因组学计算平台 被引量:1 2021年 下一代测序技术(Next Generation Sequencing,NGS)以其低成本、超高通量的特性,显著推动着宏基因组学的发展,同时也为领域内科研人员带来了巨大的挑战。随之而来的大规模、高复杂度测序数据,让研究人员在处理过程中面临诸多困难:一方面,大规模测序数据的分析消耗资源,如硬件资源、时间成本等;另一方面,计算分析过程中必然涉及到的大量宏基因组学计算分析工具很难由普通使用者自行部署、调试与维护。文中对比了领域内主流的宏基因组学计算平台,综合分析了各平台主要的优势与不足;进一步结合当前有效的计算服务技术,构建完成了一个专注于宏基因组学计算分析的高可用弹性宏基因组学计算平台MWS-MGA(More than a Web Service for Metagenomic Analysis);并通过提供多种交互接入方式以及丰富灵活的计算工具,较大程度地降低了科研人员进行宏基因组学NGS数据分析的科研门槛。 何志鹏 李瑞琳 牛北方关键词:宏基因组学 高可用 基于机器学习的基因组微卫星状态探测方法综述 2021年 【目的】探讨机器学习在基因组微卫星状态检测方法中的应用及未来研究方向。【文献范围】本文收集了微卫星状态检测方法相关文献。【方法】首先简要介绍微卫星状态检测的意义和常用的检测手段,其次对目前主流的基于机器学习的检测方法进行详细介绍,最后展望未来机器学习在微卫星状态检测领域中的研究方向。【结果】基于机器学习的检测方法从大量测序数据中迭代学习,获取影响微卫星不稳定性的关键特征,该类检测方法可以取得较好的预测效果。【局限】检测方法使用的数据类型各异,本文中无法使用同一数据集对各个检测方法进行实验比较。【结论】机器学习已广泛应用于微卫星状态检测领域,提高检测方法的适用性以及从外周血样本中检测微卫星状态,是机器学习在此领域的未来研究方向。 张舒莹 韩鑫胤 何小雨 袁丹阳 栾海晶 李瑞琳 何佳茵 牛北方关键词:基因组 微卫星不稳定性 以青海为代表的全国新生儿出生缺陷研究综述 被引量:1 2019年 [目的]分析我国新生儿出生缺陷的发生状况,探究影响新生儿出生缺陷的因素。[方法]采用了回顾性分析的研究方法,对我国主要省、直辖市、自治区的新生儿的出生缺陷率进行了统计分析。结果我国新生儿出生缺陷率在胎儿性别、地域、产妇年龄等方面有显著性差异:男性出生缺陷率高于女性出生缺陷率,农村出生缺陷率明显高于城市出生缺陷率,产妇年龄低于20岁以及高于35岁出现出生缺陷的概率明显高于其他年龄段。进一步研究发现,影响我国出生缺陷的主要因素有:妊娠期患病、孕妇年龄、孕期接触有害物质、分娩季度、孕期服用避孕药、孕期发热、异常生育史、家族遗传病、行为习惯等九大因素。[结论]孕产妇做好孕期保健,进行常规产前检查,保持良好的行为习惯,是降低出生缺陷率的有效举措。 赵得雄 尚秋明 栾海晶 代闯闯 李瑞琳 何小雨 韩鑫胤 祝海栋 何志鹏 牛北方 牛北方 陆忠华关键词:出生缺陷率 环境因素 新生儿 自适应谱聚类算法并行实现及优化 2016年 谱聚类算法是基于谱图分割理论的聚类方法,其对高维、非凸数据分布问题有很好的聚类效果。但对大规模数据问题的聚类,该方法存在着计算时间和存储空间等方面的瓶颈。本文给出了一个自适应的谱聚类并行算法,通过局部计算和异步循环通信并行方法,最大限度减少了并行谱聚类中数据通信次数,并通过计算与通信重叠策略,进一步降低了并行算法的通信开销。在并行算法实现中,将自主开发的最优预条件共轭梯度法并行求解器PLOBPCG用于谱聚类的特征降维。在中科院的"元"超级计算机上,通过对两类大规模数据聚类的测试表明,在2048核上的加速比接近线性加速,并行效率达到96%以上。 苏琳 赵永华 李瑞琳关键词:谱聚类 自适应 四种肿瘤体细胞单核苷酸突变检测方法的比较 2017年 随着高通量测序成本的不断降低,基于DNA测序技术的肿瘤基因组研究已经成为揭示肿瘤分子机制的主流方法,并在临床诊断和治疗中逐渐得到应用。肿瘤体细胞单核苷酸突变变异(single nucleotide variant,SNV)作为最简单的一种基因变异类型,其检测会受到家系多态性、肿瘤异质性、测序和分析误差等多个因素的影响,从而导致一些假阳性的结果。目前,已有一些基于肿瘤基因组测序数据的体细胞SNV检测软件,如Varscan2,Mutect2,Strelka,Somatic Sniper等。本文选取四种典型的检测方法,对每种方法的检测原理进行研究,并使用ICGC-TCGA提供的全基因组数据,对上述四种变异检测软件进行测试。参照每种方法的分析流程,获得每种方法识别的候选变异位点集,并与真实的变异位点集合进行比较,分析每种算法的优缺点,从而为研究人员使用这些方法提供指导。 李晓东 何小雨 陈玮 李瑞琳 李瑞琳 祝海栋 张裕 代闯闯 陆忠华 迟学斌 陆忠华 迟学斌关键词:基因序列 突变检测 假阳性 Gclust: Fast microbial genome sized sequence clustering using suffix array algorithm An increasing number of microbial genomes are being sequenced and deposited in public databases.Building non-r... 李瑞琳 何小雨 陈玮 郎显宇 Weizhong Li 牛北方关键词:PARALLELIZATION 六倍体小麦基因组注释流程构建与优化 被引量:1 2019年 野生小麦是异源六倍体,基因组规模较大(约14 GB),且包含大量重复序列.为了培育具有优良性状的新品种,首先要定位控制目标性状的基因,因此建立一个完整准确的基因组注释软件流程至关重要.传统的基因组注释方法基于数据库比对,具有三个明显的缺点:一是比对速度慢;二是难以发现新基因;三是软件选择没有统一标准.本文提出了一种新的生物信息学注释流程,结合了基因数据库比对、转录组高通量测序数据分析、全长转录组单分子测序数据分析等多种技术手段,实现了六倍体小麦科农9204基因组完整准确的注释,为揭示小麦生长发育规律和培育新品种提供了重要参考和软件技术支撑. 祝海栋 李瑞琳 何小雨 赵丹 韩鑫胤 牛北方关键词:基因组 基因注释 高通量测序 单肿瘤组织微卫星不稳定探测方法 被引量:1 2019年 目前,随着下一代测序技术(Next-Generation Sequencing technology,NGS)的发展,围绕高通量测序数据的微卫星不稳定(Micro-Satellite Instability,MSI)探测方法与软件工具层出不穷,但存在需要配对正常组织测序数据做参照或大量微卫星稳定(Micro-Satellite Stable,MSS)样本的正常组织测序数据构建基准线的问题,这会在一定程度上给使用者造成不便.针对以上问题,本文提出一种基于信息熵理论使用样本肿瘤组织测序数据探测MSI的模型.首先,基于之前开发的探测软件MSlsensor1.1,增加在单肿瘤组织测序数据上探测样本MSI状态的模块,扩增后的软件可实现基于两种数据模式的MSI探测.两种数据模式分别是肿瘤与正常组织成对测序数据和单肿瘤组织测序数据.其次,对扩展模块进行性能评估.依托于该模块,使用样本肿瘤组织的外显子测序数据对衡量软件性能的指标进行评估.结果显示,本研究提出的基于信息熵理论在单肿瘤组织测序数据上的探测模块性能表现较好,这为后续更为复杂的变异信号探测提供了理论依据和技术支撑. 赵丹 尚秋明 韩鑫胤 李瑞琳 何小雨 祝海栋 牛北方关键词:基因组 微卫星 微卫星不稳定 肿瘤微卫星不稳定检测方法综述 被引量:2 2018年 微卫星是广泛分布在真核生物基因组中的短串联重复序列.微卫星不稳定(Microsatellite Instability,MSI)是指由DNA错配修复系统故障引起的微卫星区域重复序列插入或缺失的现象.微卫星不稳定的检测对于肿瘤的早期诊断以及预后判断等具有重要的意义.临床上采用MSI-PCR以及MMR-IHC的实验方法检测MSI,随着下一代测序技术的发展,基于高通量测序数据的MSI检测方法及软件逐渐涌现.本文将从生物学实验方法和计算方法两个角度对当前的MSI检测方法进行介绍并讨论分析这些方法的优势及局限. 陈玮 赵丹 李晓东 何小雨 李瑞琳 李瑞琳关键词:肿瘤 微卫星不稳定 基于宏基因组长片段的基因预测算法基准 被引量:1 2019年 目前,围绕宏基因组的模拟读长(reads)或片段、全基因组等不同类型的输入数据,新的基因预测算法、软件与工具层出不穷,但存在三方面的问题:一、基于模拟reads或片段得出的结果无法准确反映真实基因的预测效果,而基于全基因组得出的结果不能实现未知物种的预测;二、模拟reads或片段大多小于真实基因的总长度,软件很难预测出完整的基因,甚至丢失部分真实基因;三、长片段基因预测的基准衡量研究较少,大大限制了基因预测在不同领域的应用。针对以上问题,提出基于真实数据长片段基因预测的基准衡量方法。首先,对两个包含20种细菌株的真实序列数据集进行过滤及组装处理;其次,利用组装后得到的长片段支架(scaffolds)作为输入,对6种软件进行基准性能评估;最后,基于评估结果进行错误率上限分析。实验结果表明,在覆盖度较高的数据集上,Prodigal、GeneMarkS-2、MetaGeneAnnotator和FragGeneScan这4种软件错误率接近且最低,在3.5%~22.8%变化;在低覆盖度的数据集上,GeneMarkS-2错误率最低,在27.1%~54.7%变化。 李瑞琳 尚秋明 韩鑫胤 张裕 祝海栋 LI Weizhong 牛北方关键词:宏基因组 基因预测 开放阅读框