国家教育部博士点基金(20112302110040) 作品数:13 被引量:14 H指数:2 相关作者: 郭茂祖 刘晓燕 王春宇 李晋 刘扬 更多>> 相关机构: 哈尔滨工业大学 哈尔滨医科大学 哈尔滨医科大学附属第四医院 更多>> 发文基金: 国家教育部博士点基金 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 生物学 医药卫生 更多>>
基于信息增益理论的整体基因中基因互作挖掘方法 2015年 复杂疾病一般由多个基因共同作用发生,单个基因的效应微小,为了更好地研究基因互作对复杂疾病的影响,提出了一种基于基因的信息增益模型。信息增益在分类系统中指变量为分类带来信息的多少,带来的信息越多,该变量对分类越重要。该模型从一个整体基因的所有单核苷酸多态性位点(single nucleotide polymorphism,SNP)出发,采用病例-对照数据来检测基因互作对疾病的影响。由于基因是功能表达的最小单位,与基于SNP的交互作用分析方法相比,该模型更能从生物学的角度解释疾病的遗传机制。最后,采用模拟数据和类风湿性关节炎疾病的真实数据进行实验,并与基于SNP的熵模型以及基于基因的核典型相关分析模型(kernel canonical corelation based U statistic,KCCU)两种模型比较,结果均验证了该模型的有效性。 黄冬丽 郭茂祖 李晋 刘晓燕 王春宇关键词:复杂疾病 基因互作 信息增益 SVM与主动学习方法相结合的蛋白质相互作用预测 被引量:2 2014年 提出了基于SVM的主动学习算法,用来解决蛋白质相互作用的预测问题。细胞中的生物过程是通过蛋白质相互作用实现的。但是通过实验验证蛋白质之间是否具有相互作用的代价非常大,而且数据很难获取。为了在有限的阳性样本情况下更加快速准确地预测蛋白质之间是否具有相互作用,引入了主动学习方法。主动学习算法可以用来构造有效训练集,其目标是通过迭代抽样,每次寻找最富有信息量的数据点,找到最有利于提升分类效果的样本,进而减小分类训练集的大小。比较了5种不同的主动学习算法,以寻找在有限资源前提下提高分类算法效率的最佳途径。实验表明,主动学习方法与SVM算法相结合,能够在保证SVM分类性能的前提下,有效减少学习所需的样本数量。 史文丽 郭茂祖 李晋 刘晓燕关键词:支持向量机 蛋白质相互作用 系统发生网络构建算法综述 2014年 物种的进化史通常被描述成一棵有根系统树,但是当物种进化过程中发生网状进化事件(如,杂交、重组和水平基因转移)时,物种的进化史不再适合被描述成系统树。系统发生网络是系统树的一般化,也是被用来描述物种的进化史,并可以描述物种的网状进化事件。而且系统发生网络也可以可视化冲突数据集,如由不同的基因得到的物种树。因此,系统发生网络的研究是生物信息的一个重要领域。介绍了系统发生网络的概念、发展、研究现状,总结了现有的系统发生网络构建算法。 王娟 郭茂祖基因组高通量测序数据结构变异识别算法 2015年 遗传变异是生命的基本特征,遗传变异与表型差异之间的关系,是现代生物学的一个基本问题。由基因决定生物体的遗传特征和主要个体差异的观念正在逐渐改变,过去几年的许多研究显示,基因组中大尺度的结构变异与个体的表型差异和疾病等有一定的关联。有关遗传变异和表型多样性的研究,需要比较生物体个体基因组间的各种不同。利用NGS数据全面分析结构变异的技术目前仍然不成熟。因此本文根据生物学知识,利用高通量测序数据,对植物基因组结构变异的识别问题深入系统的研究,提出新的结构变异识别方法和精确的断点预测方法。 王春宇 郭茂祖 刘晓燕 刘扬关键词:高通量测序 基于主动学习的相关反馈算法研究 被引量:1 2013年 相关反馈(reference feedback)是信息检索领域中一种常用技术,近年来,该技术被广泛应用与基于内容的图像检索(CBIR)领域中,旨在通过用户与图像检索系统间的交互过程,克服图像底层特征与高层语义之间的语义鸿沟问题。将主动学习算法结合到相关反馈技术当中,其目的是利用主动学习算法,从无标记图像集中选择最具有信息化的部分图像作为反馈图像,减少用户与系统之间的反馈次数。在COREL图像库和VOC图像库上,对基于主动学习的相关反馈技术进行实验验证,实验结果证明了,基于主动学习的相关反馈技术可以有效提高图像检索系统的性能。 吴伟宁 刘扬 郭茂祖 王春宇 刘晓燕关键词:基于内容图像检索 一种蛋白质复合体模块度函数及其识别算法 被引量:8 2014年 蛋白质复合体对于研究细胞活动具有重要意义.随着新的生物实验技术的不断出现,产生了大量的蛋白质相互作用网络.通过对蛋白质相互作用网络进行聚类识别蛋白质复合体是当前研究热点.然而,目前大多数蛋白质复合体识别算法的性能不够理想.为此,提出了蛋白质复合体模块度函数(PQ),并在此基础上提出了基于蛋白质复合体模块度函数的模块合并(based on protein complexes modularity function for merging modules,BMM)算法.BMM算法首先识别网络中一些稠密子图作为初始模块,然后依据PQ函数对这些初始模块进行合并,最终得到了质量较高的蛋白质复合体.将识别出的复合体分别与2种已知的蛋白质复合体数据集进行比对,结果表明BMM算法具有很好的识别性能.此外,与其他最新的识别算法相比,BMM算法的识别准确率较高. 郭茂祖 代启国 徐立秋 刘晓燕关键词:蛋白质复合体 蛋白质相互作用 融合空间信息LDA的视觉对象识别研究 2013年 近年来国内外有很多学者将广泛用于自然语言处理的LDA模型引入视觉对象识别,对象分割,场景分类等应用中。LDA模型是产生式模型,所以必然存在产生式模型共有的弊端,即假设每个视觉词汇所对应主题的产生是条件独立的。根据图像本身的特征,图像的空间信息对图像物体识别起了很大的作用,一个视觉词汇主题的生成过程是受其相邻视觉词汇主题所影响的,为了提高图像视觉词汇的主题分配正确率,提出融合空间信息LDA模型,即融合条件随机场的LDA模型,从而在图像的局部主题标签上融合二维图像空间信息,既避免空间信息的丢失,同时可以提高其视觉词汇的主题分配正确率。论文主要研究内容:首先对LDA模型进行改进,并在该模型中引入条件随机场,同时推导出使用期望最大化算法确定的模型参数。该论文提出使用条件随机场获得图像的二维空间信息,将产生式模型和判别式模型融合,在增强由图像本身性质所决定的相邻区域主体标签的空间关联性的同时,也提高了视觉对象识别的精确度,完成图像的自动标注。 李阳 刘扬 郭茂祖关键词:LDA模型 空间信息 条件随机场 期望最大化算法 MicroRNA前体的特征选择方法 2012年 microRNA(miRNA)是一类长度约为21nt的非编码RNA,具有重要的调控功能。miRNA前体包含一级序列特征和二级结构特征,其中含有冗余和无用的特征,这些特征无益于前体分类模型的分类准确度。因此需要去除冗余特征,进而降低特征维数并提高分类性能。针对miRNA的前体序列数据,已有特征选取方法,仅考虑了特征之间的区分距离。全面考虑了每个特征属性对分类的增益和特征间冗余性,选取的特征有助于建立高效的分类模型。实验结果表明,选取的特征子集有效地提高了miRNA前体分类器的预测性能,取得了更好的分类结果。 玄萍 郭茂祖 吴玲 王姗姗 张兆功 李媛关键词:信息增益 利用eQTL构建基因-基因网络挖掘类风湿性关节炎风险基因 2014年 目的:类风湿性关节炎是一种全身的慢性炎症型疾病,可能影响许多组织和器官,主要发作于灵活的关节。全世界人群中大约有1%会患有类风湿性关节炎。目前已经证实了一些基因与类风湿性关节炎相关,但是这些基因只能解释一小部分遗传风险,因此我们需要新的策略和方法来解决这个问题。方法:表达数量性状位点(eQTL)是指能够调控基因或蛋白质表达的基因组位点,本文采用了eQTL数据构建基因-基因网络并挖掘候选类风湿性关节炎风险基因。结果:首先,利用eQTL数据,基于基因之间的共调控系数,建立基因-基因网络,我们建立了5个不同阈值(0、0.2、0.4、0.6和0.8)的基因-基因网络;然后,在OMIM和GAD数据库中搜索已经证实的与类风湿性关节炎相关的186个基因;最后我们将已证实与类风湿性关节炎相关的186个基因分别投入到这5个网络中,利用基因与基因之间的相关性来挖掘到一些可能与类风湿性关节炎相关的候选风险基因。结论:本文基于eQTL构建了基因-基因网络,结合已知类风湿性关节炎风险基因,挖掘未知风险基因,得到了较好的结果,证明了本方法的有效性,且对于类风湿性关节炎的发病机制研究具有重要价值。除了类风湿性关节炎外,本方法还可推广到其它复杂疾病中,因此本方法对人类复杂疾病的研究具有很强的学术理论价值和应用价值。 张卓然 毕小慢 李晋 王丽美关键词:类风湿性关节炎 功能注释 基于SNP标记的QTL组合定位方法 被引量:2 2014年 QTL的精确定位对数量性状遗传机制的研究及应用具有重要意义。随着分子生物技术和遗传学的发展,产生了大量可用于QTL定位的遗传标记和分析方法。然而,多数方法只能将QTL定位到一个区间而非具体位置,且具有较高的假阳性。为此,提出利用全基因组上的SNP标记,通过emBayesB方法和性状-标记回归区间分析相结合的组合方法进行QTL定位研究。组合方法能够筛选出与QTL存在较强关联的SNP标记,具有较高的计算速度和计算效率;通过性状-标记区间检测,能够较为精确地计算出QTL的位置。方法中考虑到染色体上其它标记的背景遗传信息,提高定位成功率和可信度。 王倩雯 郭茂祖 王春宇 刘晓燕关键词:QTL定位 SNP标记