谢雪英 作品数:11 被引量:19 H指数:3 供职机构: 东南大学生物科学与医学工程学院 更多>> 发文基金: 江苏省自然科学基金 国家高技术研究发展计划 国家自然科学基金 更多>> 相关领域: 生物学 理学 医药卫生 更多>>
基于复杂网络的蛋白质结构域组进化分析 被引量:4 2010年 结构域重组与序列复制、变异一起,推动了生命的进化。文章应用复杂网络理论比较分析了不同复杂程度的真核生物体中蛋白质结构域组的进化规律。结果表明大量的结构域(约34%)被基因组共享,而结构域的相邻二元组合却具有很大的物种特异性。结构域组合网络呈现无尺度特性,其幂率分布及平均连接度在一定程度上反映了物种的复杂性;网络的聚集系数远高于相同度分布的随机网络(P=0.0096),聚集系数与度呈现幂率分布,这说明网络服从模块化层次式组织规律。最后以人类基因组为例,初步探索了网络模块与功能的关系,发现网络模块中的结构域具有不同程度的功能一致性。 谢雪英 李鑫 曹晨关键词:结构域 复杂网络 进化 Auto-selection order of Markov chain for background sequences with chi-square test 被引量:1 2003年 Modeling non coding background sequences appropriately is important for the detection of regulatory elements from DNA sequences. Based on the chi square statistic test, some explanations about why to choose higher order Markov chain model and how to automatically select the proper order are given in this paper. The chi square test is first run on synthetic data sets to show that it can efficiently find the proper order of Markov chain. Using chi square test, distinct higher order context dependences inherent in ten sets of sequences of yeast S.cerevisiae from other literature have been found. So the Markov chain with higher order would be more suitable for modeling the non coding background sequences than an independent model. 谢雪英 孙啸 陆祖宏新型生物网络模型的构建方法 本发明公开了一种模拟生物演化特性的生物网络模型的构建方法,其特征在于所述方法包括以下步骤:(1)生物网络的初始化:预设含有m<Sub>0</Sub>个初始节点的初始网络G<Sub>0</Sub>,所述初始网络G<Sub>... 谢雪英 李鑫文献传递 基于内插马尔可夫模型的Gibbs改进算法识别调控元件 2006年 不同阶数插值形式的马尔可夫内插模型,可以表示在一个DNA序列中相邻核苷酸之间的前后关系的变化。本研究将内插马尔可夫模型引入Gibbs采样算法,识别基因上游序列中的调控元件。对模拟序列和10组来源于文献的酵母基因序列的测试结果表明,改进后的算法在识别保守性差的调控元件和抗噪声能力方面均优于传统的Gibbs采样算法。 谢雪英 孙啸 谢建明 陆祖宏关键词:GIBBS采样 调控元件 基因序列 基于序列特征的环状RNA识别 被引量:1 2018年 环状RNA是新发现的一类具有重要生物学功能的RNA。现有的环状RNA识别工具依赖高通量测序数据,因数据本身和识别方式的弊端而普遍存在准确性不足、不同方法间重复性低以及假阳性率/假阴性率高等缺点。为了解决该问题,我们搭建模型来实现不依赖于测序数据而根据序列的内在特征的环状RNA从头预测。本文选取了包括剪接位点上下游内含子的长度、A-to-I密度和Alu重复序列等100个与RNA成环相关的序列特征,建立了机器学习模型,并识别了人类基因组中的环状RNA,比较了两种机器学习方法随机森林法(RF)和支持向量机(SVM)的分类效果。结果表明,所选序列特征能有效地鉴别RNA能否成环,同时,不同序列特征对模型的分类预测能力的贡献也不同。相比于SVM方法,RF分类的效果更好。 周晶 谢雪英 顾万君关键词:支持向量机 基于信息量的调控元件预测方法 被引量:5 2003年 设计基于信息含量的调控元件识别算法,对酵母的基因表达数据聚类结果进行分析,旨在预测共表达基因上游非编码区可能存在的转录因子结合位点。分析已知受相同调控因子作用的基因上游序列的结果表明,算法能正确识别具有单一保守核心序列的调控元件和具有间隔子(spacer)的保守序列。通过分析共表达基因,算法提取出的候选调控元件,部分可能具有生物学意义,这还有待于生物学实验的进一步验证。 谢雪英 孙啸 谢建明 陆祖宏关键词:信息含量 调控元件 聚类 基因转录 基因表达数据分析与调控元件识别的算法研究 随着DNA测序技术和微阵列芯片等高通量技术的快速发展和日益成熟,DNA序列数据和基因表达数据等正以级数的形式增长。运用信息技术的手段,对大量的DNA序列数据和基因表达数据的进行知识挖掘,获取新的生物学知识,已成为当前国际... 谢雪英关键词:生物信息 基因分析 基因调控 生物数学 文献传递 SARS病毒与其他冠状病毒的基因组比较 2003年 本文利用生物信息学方法比较SARS病毒和其他冠状病毒基因组。通过数据库搜索,找出与SARS病毒基因组相似的核酸或蛋白质序列,并对相似序列进行比对,分析它们的共性和差异。结果表明,SARS病毒在基因组的组织上及结构蛋白质方面与现有冠状病毒有比较大的相似性,SARS病毒基因组与冠状病毒基因组相关。但是,SARS病毒基因组还存在一些特异性序列,ORF1a和S蛋白(特别是S1)的变化以及SARS-CoV特异性的非结构蛋白可能是SARS发病机理与传染特性区别于其他冠状病毒的分子基础。在全基因组水平上进行核酸单词出现频率分析,结果表明,SARS病毒远离已知的其他冠状病毒,单独成为一类。 孙啸 谢建明 周士新 谢雪英 陆祖宏关键词:SARS病毒 冠状病毒 基因组 新型生物网络模型的构建方法 <B>本发明公开了一种模拟生物演化特性的生物网络模型的构建方法,其特征在于所述方法包括以下步骤:(</B> <B>1</B> <B>)生物网络的初始化:预设含有</B> <B>m</B> <Sub> <B>0</B> <... 谢雪英 李鑫文献传递 环状RNA计算预测方法的研究进展 2021年 环状RNA(circular RNA,circRNA)是一类具有重要生物作用的内源性RNA,大多在可变剪接过程中通过5’端和3’端反向共价连接形成闭合环状结构。目前,环状RNA的识别策略主要分为两大类:一类方法从高通量测序(RNA-seq)数据中检测反向剪接位点,另一类直接从RNA序列中检测成环特征。由于数据本身和识别方法的不足,依赖高通量测序数据的识别工具存在假阳性率高和不同工具间重合率低等缺点。因此,充分利用序列本身的特征来识别环状RNA是环状RNA识别的研究方向。本文总结了8种基于序列特征预测环状RNA的工具,并给出它们在测试数据集上的测试结果,为后续研究和优化提供数据支持。 谭超俊 顾万君 谢雪英