Objective: To extract the relevant SNPs for alcoholism using sib-pair IBD profiles of pedigrees.Methods: We used the ensemble decision approach, a supervised learning approach based on decision forests, to locate alcoholism relevant SNPs using genome-wide SNP data. Results: Application to a publicly available large dataset of 100 simulated replicates for three American populations (http://www.gaworkshop.org/) demonstrates that the proposed approach has successfully located all of the simulated true loci.Conclusion: The numerical results establish the proposed decision forest analysis to be a powerful and practical alternative for large-scale family-based association study.
基因表达调控网络的深入研究有利于分子药物靶标的发现以及推新药的研发,是未来生物医学研究的重要内容。针对基因表达调控的时间延迟问题,我们初步设计开发了一套基于基因表达谱数据识别基因表达时间延迟调控关系的软件ITdGR(Identification of Time-delayed Gene Regulations)。并已经成功地将该软件应用于酿酒酵母细胞周期的基因表达谱数据中,识别出的调控关系与已有的知识相符。该软件为基因调控网络重构以及基因表达动态研究提供了一个方便和快捷的工具。
基因芯片技术为疾病异质性研究提供了有力的工具。当前基于传统聚类分析的方法一般利用芯片上大量基因作为特征来发现疾病的亚型,因此它们没有考虑到特征中包含的大量无关基因会掩盖有意义的疾病样本的分割。为了避免这个缺点,提出了基于耦合双向聚类的异质性分析方法(Heterogeneous Analysis Based on Coupled Two-WayClustering,HCTWC)来搜索有意义的基因簇以便发现样本的内在分割。该方法被应用于弥漫性大B细胞淋巴瘤(diffuselargeB-celllymphomaDLBCL)芯片数据集,通过识别的基因簇作为特征对DLBCL样本聚类发现生存期分别为55%和25%的两类DLBCL亚型(P<0.05),因此,HCTWC方法在解决疾病异质性是有效的。