福建省自然科学基金(2011J05158)
- 作品数:7 被引量:23H指数:3
- 相关作者:邹权林琛林子雨江弋杨思颖更多>>
- 相关机构:厦门大学佳木斯大学广东石油化工学院更多>>
- 发文基金:国家自然科学基金福建省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术生物学更多>>
- 基于替换概率的闪存数据库缓冲区替换算法被引量:12
- 2013年
- 闪存具有和传统磁盘不同的特性,包括写前擦除、异地更新、读写延迟非对称等.传统的面向磁盘的缓冲区替换算法无法在闪存数据库系统中获得较好的性能.文中提出了一种新的面向闪存数据库的缓冲区替换算法——APB-LRU,其特点:(1)该算法将缓冲区分为冷区和热区,用来捕获数据访问频度,前者用于存放只访问过一次的数据页,后者用于存放至少访问过两次的数据页;(2)采用了其它研究所没有的概率替换机制,即以较大的概率替换冷区中的干净页,以较小的概率替换冷区中的脏页,从而避免了冷脏页长期驻留缓冲区的情况,提高了命中率,获得了较好的整体性能;(3)设计了冷、热区比例动态变化机制,可以根据工作负载的变化动态调整冷、热区所占缓冲区的比例,从而使得替换算法在不同的负载模式下都可以取得较好的性能.基于不同测试数据集的大量实验结果表明,APB-LRU算法具有比其它已有的算法更好的性能.
- 林子雨赖明星邹权薛永生杨思颖
- 关键词:闪存数据库
- 基于集成分类器的蛋白质折叠模式识别
- 2012年
- 蛋白质折叠问题被列为"21世纪的生物物理学"的重要课题,他是分子生物学中心法则尚未解决的一个重大生物学问题,因此预测蛋白质折叠模式是一个复杂、困难、和有挑战性的工作。为了解决该问题,我们引入了分类器集成,本文所采用的是三种分类器(LMT、RandomForest、SMO)进行集成以及188维组合理化特征来对蛋白质类别进行预测。实验证明,该方法可以有效表征蛋白质折叠模式的特性,对蛋白质序列数据实现精确分类;交叉验证和独立测试均证明本文预测准确率超过70%,比前人工作提高近10个百分点。
- 胡始昌江弋林琛邹权
- 关键词:集成分类器蛋白质二级结构
- 基于不同分词框架的学术论文翻译系统被引量:2
- 2013年
- 针对国内学者和研究人员在撰写英语论文时出现一些术语对应翻译不正确的情况,设计实现了基于术语词库框架的学术论文例句检索系统.由于该检索系统的查询关键字多为专业术语,如新词或未登录词,很难被普通分词方法有效分词,对此提出了一种自建专业术语词典树的方法,有效地提高了分词的准确率,返回更为精准的检索结果.
- 官新均陈珂苏旋邹权
- 关键词:信息检索机器翻译
- 基于聚类方法的基分类器选择策略研究
- 提出一种将基于聚类集成修剪同动态选择与循环集成结合的方法.首先,利用基于K-均值聚类算法的修剪策略对全部的候选分类器进行筛选,形成新的候选分类器集合.然后,改进动态选择与循环集成方法,将其与集成后序选择结合对处理过的候选...
- 邱诚倪子伟陈珂苏旋邹权
- 关键词:K-均值聚类
- 文献传递
- Hadoop平台的微博热点事件挖掘被引量:4
- 2014年
- 微博作为一种新兴的网络社交服务,其即时通讯功能强大,用户可利用各种手段在微博上实时、快捷地发布社会热点事件.但是微博平台在短时间内发布大量信息的特点在一定程度上造成了信息的碎片化,而且迅速的信息更新速度易造成重要信息的不易检索.本文采用Hadoop平台,利用其在大数据挖掘方面的优势,提出挖掘微博中热点词的分布式算法,提取热点词组织热点事件,方便用户查询.此外提出了线性时间复杂度的检测算法,检测热点事件的爆发时间段.文中采用Twitter和新浪微博上的数据集作为测试样本,进行了大量的实验,实验结果表明本文算法能有效的提取微博中的热点事件.
- 谢思发林琛苏旋江弋
- 关键词:HADOOP分布式
- 下一代测序技术数据中的选择性剪切计算识别方法研究
- 2012年
- 随着测序技术的发展,下一代测序技术(Nex-t Generation Sequencing)给生物信息学领域研究带来了新的机遇和挑战.由于选择性剪切(alternative splicing,AS)在真核生物基因表达和蛋白质多样性方面的重要性,识别选择性剪切位点一直都是研究的重点.下一代测序技术的出现,使得选择性剪切研究的计算方法不断地变化.介绍了选择性剪切过去和目前研究的状况,然后总结了基于RNA-seq数据的选择性剪切研究方法、软件以及数据库,并利用了RNA-seq数据比较了相关软件,最后讨论了选择性剪切中计算方法的发展方向和前景.
- 邹权李旭斌林子雨江弋林琛
- 关键词:RNA-SEQ选择性剪切剪切位点生物信息学
- 基于集成学习的音乐识别方法研究被引量:4
- 2012年
- 随着信息和多媒体的发展,音乐数据变得更加丰富。如何能够高效地检索和管理音乐数据是一个挑战。音乐分类是音乐信息检索领域的一个关键问题,可以很好地管理不同类别的音乐数据。基于K-Means聚类的循环静态选择策略是一种双层选择集成模型,它的第一层是通过基于聚类的选择策略在全部的基分类器中筛选出相互之间差异性较大的候选基分类器集合,然后通过第二层的循环静态选择策略进行第二轮的选择操作,并进行投票集成,以达到更好的集成效果。通过两组标准的音乐数据集验证了该策略的有效性。
- 邱诚王大海任伟家邹权
- 关键词:音乐信息检索音乐分类聚类
- 基于视图树的实视图动态选择被引量:1
- 2012年
- 为用户缓存实视图可以有效提高其OLAP查询的性能.但是,已有的缓存管理策略由于没有考虑用户在进行OLAP分析时的数据访问特性,在处理实视图动态选择问题时无法获得好的性能.提出了视图路径和视图树的概念,并以视图树作为客户端缓存中的实视图组织方式.提出了"逆路径增长法"来快速计算新到达查询的视图路径,提高了查询的响应速度.对于视图树的动态调整问题,以"保留路径"为参照,设计了合理有效的视图替换策略.实验证明,该方法能够比已有的动态选择方法取得更好的性能.
- 林子雨邹权林琛赖永炫郑炜
- 关键词:数据仓库联机分析处理多维数据缓存