浙江省自然科学基金(Z2090299) 作品数:9 被引量:6 H指数:2 相关作者: 厉力华 韩斌 祝磊 代琦 来海锋 更多>> 相关机构: 杭州电子科技大学 南佛罗里达大学 浙江省肿瘤医院 更多>> 发文基金: 浙江省自然科学基金 国家自然科学基金 国家杰出青年科学基金 更多>> 相关领域: 医药卫生 生物学 自动化与计算机技术 更多>>
基于诊断结果相关性分析的肿瘤基因标志物提取方法 2010年 目的基于微阵列数据,提出提取肿瘤诊断结果相关的基因标志物。方法混合滤波和缠绕方法,采用奇异值分解,以基因和肿瘤诊断结果的相关强度为主要标准,辨识基因标志物,利用基于信息增益的随机森林法对分类率做辅助修正。本方法在3个公共数据库上和常用分类器上做了测试。结果 MonteCarlo统计实验表明,对于Colon数据集,本文方法在NN,RF分类器上显著优于t-test方法;在Prostate数据集上,本文方法在NB的分类器上显著优于对手,在其他数据集和分类器上本方法优于对手但不显著;而在基因稳定度指标上,本方法普遍优于对手。结论提出1种可以定量的,基于可视化的分析基因和诊断结果相关性的方法,与经典方法相比,本文方法提取的基因不仅具有较强的分类性能和对不同分类算法的适应性,而且在总体上也具有较好的基因稳定度。 韩斌 陈岩 来海锋 厉力华 祝磊 代琦关键词:肿瘤分类 基因选择 微阵列 奇异值分解 基于集成类随机森林方法的神经胶质瘤特征基因选择的研究 被引量:4 2010年 神经胶质瘤(glioma)是一种严重的颅内肿瘤疾病,具有高复发率、高死亡率和低治愈率等特点。利用基因微阵列数据识别与神经胶质瘤相关的特征基因,对该疾病的临床诊断和生物医学研究将起到有益的参考和借鉴作用。作者针对神经胶质瘤数据,提出了一种集成类随机森林特征基因选择方法。首先应用有监督奇异值分解对数据进行降维并粗选出基因;其次应用类随机森林特征选择方法选出特征基因。实验结果显示,该方法对分类器的适应性强;对比其他方法,分类率优势明显;更重要的是,在选出的前50个特征基因中有39个基因与神经胶质瘤或肿瘤细胞生物过程存在着密切联系,证实该方法不仅保持了较高的分类率,而且保证了选择的特征基因具有很强的生物学关联意义,具有较高的可行性和实用性。 来海锋 韩斌 厉力华 陈岩 祝磊 代琦关键词:神经胶质瘤 肿瘤诊断 奇异值分解 基因芯片技术在卵巢癌化疗疗效相关基因筛选中的应用 被引量:2 2011年 卵巢癌是妇科常见恶性肿瘤,其发病率居第3位,而病死率高居第1位.手术后辅助化疗是治疗卵巢癌的主要手段,患者的预后很大程度上取决于对化疗的反应,但由于化疗耐药的出现,半数以上的患者化疗后疗效不佳.目前,还没有有效的手段预测化疗的效果.基因芯片技术的发展为人类从基因的角度,全面研究和分析化疗疗效相关基因提供了条件.本研究采用基因芯片技术对133例原发性卵巢癌患者进行化疗疗效相关基因的筛选,为卵巢癌患者的个体化治疗提供理论依据. 王清 韩斌 苏丹 应南娇 厉力华 祝磊关键词:相关基因筛选 基因芯片技术 卵巢癌患者 化疗疗效 个体化治疗 基于磷脂质类数据的早期卵巢癌特征提取研究 2010年 卵巢癌是目前死亡率最高的妇科疾病之一,而如果得到早期诊断和治疗,卵巢癌患者的存活率可达90%。针对卵巢癌早期诊断问题,基于卵巢癌磷脂质类数据,提出了一种结合缠绕法和过滤法、按照诊断类别相关度挑选特征,然后依据特征标志物的分类率稳定度高低,提取用于诊断早期卵巢癌的特征子集的策略。该方法克服了分类率监督方法忽略生物相关性、依赖分类器易产生过拟合的不足,同时保持了较高的分类率。实验表明,该方法挑选的特征标志物包含更多的分类信息,其分类正确率达到88.9%,且比经典的分类率监督方法和差异表达方法在稳定性能上存在优势。此外,提出的新的标幺化方法去掉了批次差异,获得更好的分类效果,且所选的特征标志物得到生物学关联意义上的支持,具有较高的可信度和实用性。 陈淑飞 韩斌 厉力华 Rebecca Sutphen 祝磊 代琦关键词:卵巢癌 稳定度 奇异值分解 MONTE 一种生物相关性优先的两步卵巢癌化疗疗效敏感基因选取方法 2012年 作为卵巢癌主要诊疗手段之一的化疗,费用昂贵,副作用大,且患者反应的个体差异很大。本文提出一种首先依据诊断结果(卵巢癌化疗疗效)相关性进行特征选择,然后利用蒙特卡洛方法对特征基因排序,最终建立预测化疗反应模型的方法,克服了过度依赖分类率的弊端。首先利用奇异值分解,基于散点图和Kolmogorov-Smirnovtest(K-S test)的定性和定量分析非生物因素对基因表达谱的影响,结合化疗反应样本的聚类图进行基因筛选;然后采用基于信息增益的随机森林方法精选基因,得到与化疗相关的敏感基因。实验结果表明,此方法与经典方法(SVMRFE、T-test)相比,所选取出的特征基因具有较好的分类能力且保持稳定;从生物学角度分析显示,此方法所得到的敏感基因与化疗疗效的联系更加紧密,50个基因中,有4个(NR2F2、CLDN3、PURA、C1ORF38)直接与卵巢癌相关;17个(USO1、TCF7L2、NR2F2等)与肿瘤或癌症直接相关,或与肿瘤密切相关的生物过程(例细胞生长与繁殖、新陈代谢、细胞循环、DNA修复等)相关。 韩斌 王清 解瑞飞 厉力华 祝磊关键词:特征选取 决策树 基于PTPR排名的基因随机选择算法 2011年 面对高维、小样本的基因微阵列数据,有效地提取特征基因成为一项艰巨的任务。在随机特征选择方法的基础上,引入"种子变量"及滚动的排名机制,提出一种基于职业网球选手排名(PTPR)的特征选择算法。用种子变量提高变量搜索过程的选择性,提高搜索效率,同时充分利用历史记录来动态更新种子变量,加快寻优速度。在公共数据库上的测试实验结果表明,PTPR在随机多次独立运行时得到平均50%~80%的相同基因,而MichaDraminski的方法只能保持相同基因在10%~50%左右;收敛性实验表明,PTPR的收敛速度更快且显著;而在5个数据集的独立测试集上的分类率实验表明,PTPR保持较高的分类率,如PTPR得到最高分类率大约为98%、90%、89%、95%、75%,而MichaDraminski方法的最高分类率为96%、89%、85%、95%、70%。同时,与其他典型方法相比,PTPR也得到了较高的分类率。总体上,PTPR算法具有搜索速度快、结果稳定的特点,而且在不同的分类器上都保持了较优的分类率。 解瑞飞 韩斌 厉力华 祝磊关键词:随机搜索 基于统计独立性度量方法的大肠杆菌基因调控网络结构辨识 2013年 生物学探究的基因关联是类似于因果关系的本质联系,要解决的关键问题是寻找一种可以描述本质联系的方法。针对Dialogue for Reverse Engineering Assessments and Methods第3次竞赛项目(DREAM3)中的大肠杆菌(E.coli)基因调控网络结构辨识问题,提出一种基于再生核希尔伯特空间(RKHS)的统计独立性度量方法——Hilbert-Schmidt独立性准则(HSIC)。此方法是一种基于分布的非参数独立性度量方法,并不要求数据符合某种特定分布,不以分类率、模型简单度等外部条件作为约束条件,同时非参数定量地描述变量之间的联系程度。对大肠杆菌基因表达数据的实验结果显示,尽管数据集中的时间序列数据样本很小,并且只提供了较弱的和类型复杂的调控信息,但HSIC方法仍能较好地辨识出这种较为隐含且复杂的调控关系。对比计算显示,在3种数据规模下,采用HSIC方法辨识结果的AUROC值高于Granger Causality(GC)方法 23个百分点,高于参与此竞赛的第1名3.9个百分点,而且在计算效率上亦高出其所使用的微分方程法3个数量级。 樊双喜 韩斌 厉力华 祝磊 金丽艳 李颜娥 王晟 应南娇关键词:基因调控网络 再生核希尔伯特空间 基于“极少”特征标志物的卵巢癌两步预测模型研究 2010年 卵巢癌是目前死亡率最高的妇科疾病之一,利用信息学手段挑选特征肿瘤标志物已被广泛用于包括卵巢癌在内的肿瘤分类、诊断研究。但是研究中单纯以提高分类率为指标而忽视敏感性和特异性的均衡,且模型为多变量或者复杂模型,成本过高,不太适合临床应用。为此,提出一种基于"极少"特征标志物的两步预测模型,利用先期提取的多个特征作敏感性和特异性测试,然后构建特征变量的两步预测模型。先用单个变量预测,在一个变量不能得到可靠结果时,才增加另一变量参与模型。实验显示,筛选出的PPE8+LPE4和PPE8+LPC0两对变量组合的敏感性和特异性显著、均衡,变量之间的相关性较小,且分类结果和4个变量的分类结果相当,与9个变量的分类率只差4%~5%。所提出的基于极少特征标志物的两步预测模型结构简单,在保持相同分类效果的前提下大大减少了用于预测的变量,为实际应用提供方便,同时在一定程度上节约了经济成本。 陈淑飞 韩斌 厉力华 SUTPHEN Rebecca 祝磊 来海锋关键词:敏感性 特异性 卵巢癌 基于质谱数据的肿瘤诊断WEB平台 2013年 随着蛋白质质谱技术以及智能算法的发展,使用智能算法分析临床质谱数据已在肿瘤早期诊断方面显示了良好的应用前景.通过研究MATLAB Builder JA Toolbox和分析蛋白质质谱数据的智能算法,结合临床蛋白质质谱数据分析的需求,使用JavaEE技术,设计和实现了基于质谱数据的肿瘤诊断web平台.平台功能主要包括质谱数据可视化显示、智能检索和智能决策诊断三大功能.同时还提供病人基本信息及肿瘤数据管理,质谱生物特征位点设置及分析结果数据存储等附加功能. 梁进科 厉力华 柯激情关键词:可视化 MATLAB JAVAEE