国家高技术研究发展计划(2010AA012500) 作品数:8 被引量:92 H指数:5 相关作者: 程学旗 郭嘉丰 余智华 张瑾 刘春阳 更多>> 相关机构: 中国科学院 中国科学院研究生院 国家互联网应急中心 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 北京市科技计划项目 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
企业集成模式组合建模方法 被引量:3 2011年 针对先进制造领域中业务系统集成和服务快速封装问题,提出了一种企业集成模式的组合建模方法。定义企业集成模式单元以描述企业集成模式,支持业务系统功能的调用和模式化的消息处理;采用企业集成模式组合方法实现业务系统间的消息路由功能;使用Petri网描述模式组合,并给出组合的正确性验证算法;实现了企业集成模式建模工具MixEIP,支持以配置的方式构建企业集成模式组合。实验结果表明,该方法不仅提高了集成系统的建模效率,还具有较快的消息处理速度。 陈皓 梁英 唐皓 虎嵩林关键词:消息处理 企业服务总线 面向分面导航的层次概念格模型及挖掘算法 被引量:9 2011年 分面导航利用动态多维分类目录组织查询结果,从而有效减轻数据库资源定位过程中的信息过载.现有的分面导航限制用户每次增删一个查询关键字,无法满足对具有丰富语义的导航操作的需求.另一方面,高效的动态目录生成算法的缺乏阻碍了分面导航在大规模数据中的应用.该文提出了层次概念格,对分面导航中不同浏览状态之间的关系进行建模.基于该层次概念格模型,该文设计了若干新的导航操作以支持用户在不同浏览状态之间更灵活地跳转,从而更有效地进行知识发现.为获取该层次概念格以支持导航的灵活性和实时性,该文提出了层次概念格的高效挖掘和索引算法L-Miner.L-Miner以深度优先方式挖掘所有节点,每得到一个新节点,就更新已挖掘节点之间的边.通过对底层格节点的倒排索引,L-Minder可以高效地进行边更新.实验结果表明:L-Miner的速度远快于现有算法,而其构建的索引结构的存储代价更低. 何超 程学旗 郭嘉丰关键词:概念格 数据挖掘 基于情感关键句抽取的情感分类研究 被引量:27 2012年 情感分析需要解决的一个重要问题是判断一篇文档的极性是正面的还是负面的.情感分类的正确率很难达到普通文本分类的水平,因为情感分类更难更复杂.在判断文档的情感极性时,不同的句子具有不同的情感贡献度,所以,对整篇文档的关键句和细节句进行区分将有助于提高情感分类的性能.关键句通常简短且具有判别性,而细节描述句通常复杂多样且容易引入歧义.在关键句抽取算法中,考虑3类属性:情感属性、位置属性和关键词属性.为了更好地利用关键句和细节句之间的差异性和互补性,将抽取的关键句分别用于有监督的和半监督的情感分类.在有监督情感分类中,采用的是分类器融合的方法;在半监督情感分类中,采用的是Co-training算法.在8个领域上进行实验,结果表明所提方法性能明显优于Baseline,从而证明情感关键句抽取算法是有效的. 林政 谭松波 程学旗关键词:情感分类 关键句 分类器融合 有监督学习 半监督学习 网络舆情信息源影响力的评估研究 被引量:29 2011年 文章通过对网络舆情、信息源、影响力等概念的深入研究,构建网络舆情信息源影响力评估体系。评估方法试图从根本上抓住网络舆情信息源影响力的本质特点:除了考虑信息源的表现力,还考虑网民对影响力的反馈,以及信息源转载信息这一行为中隐含的对同行信息源影响力的反馈。在量化影响力时,文章借鉴网络链接分析算法PageRank,提出算法SrcRank对信息源重要度进行排名。实例分析结果表明,评估方法能够客观而合理地评价网络舆情信息源的影响力。 郭岩 刘春阳 余智华 张瑾 戴媛关键词:网络舆情 PAGERANK 基于热传导模型的更新摘要算法 被引量:1 2012年 更新摘要除了要解决传统的面向话题的多文档摘要的两个要求——话题相关性和信息多样性,还要求应对用户对信息新颖性的需求.文中为更新摘要提出一种基于热传导模型的抽取式摘要算法——HeatSum.该方法能够自然利用句子与话题,新句子和旧句子,以及已选句子和待选句子之间的关系,并且为更新摘要找出话题相关、信息多样且内容新颖的句子.实验结果表明,HeatSum与参加TAC09评测的表现最好的抽取式方法性能相当,且更优于其它基准方法. 杜攀 郭嘉丰 张瑾 程学旗 张旭网络信息的检索与挖掘回顾 被引量:18 2011年 随着互联网的蓬勃发展,海量的网络信息成为了迄今为止最大规模的数据资源。如何利用海量网络信息,为人们提供智能应用,更好的解决人们的信息需求,成为了互联网领域的挑战性问题,也催生了对海量网络信息检索与挖掘的广泛研究。该文从信息表达、信息检索与信息挖掘三个方向入手,结合近年来对网络信息相关领域的研究与实践,对网络信息检索与挖掘的发展变化历程、目前存在的问题以及未来的发展趋势进行总结和分析。 程学旗 郭嘉丰 靳小龙关键词:信息表达 信息检索 信息挖掘 Twitter数据采集方案研究 被引量:5 2012年 为了能够实时、高效地获取Twitter数据,在分析了传统采集方法的缺陷后,提出了基于Twitter List API和Lookup API的用户数据采集方案。该方案通过对用户进行分类,进而精确控制API的调用频率。经在超过26万Twitter用户和600万条消息的一系列实验证明,通过两套方案的结合可以实现Twitter用户数据高效实时的获取。 房伟伟 李静远 刘悦 余智华 曹鹏 张凯关键词:TWITTER LIST API LOOKUP API 数据采集 基于判决域半径的码字错误率估计 2011年 针对目前典型通信中对错误概率的估计主要是依靠蒙特卡罗仿真的局限性,给出一种利用判决域的半径来估计错误率的方法,将伯努利实验样本用判决域半径样本替换.由于半径样本所含的信息量更加丰富,可以减少所需的样本数.同时,由于判决域的几何结构基本上与信噪比(SNR)无关,所以估计错误率时不必随SNR重新测量半径,基于同一组半径样本即可估计出任意SNR下的错误率. 戴利云 杨鸿文 陈晓刚关键词:蒙特卡罗仿真