国家科技支撑计划(2011BAK08B04)
- 作品数:14 被引量:100H指数:5
- 相关作者:胡长军李扬李江华时鹏刘歆更多>>
- 相关机构:北京科技大学江西理工大学南昌航空大学更多>>
- 发文基金:国家科技支撑计划中央高校基本科研业务费专项资金北京市重点实验室更多>>
- 相关领域:自动化与计算机技术更多>>
- 话题案例知识库动态模型及优化策略
- 2012年
- 传统的话题检测方法仅通过最初几篇话题相关报道的特征来表示话题,不能适应话题动态变化的特点。为此,提出一种话题案例知识库的动态模型。采用资源描述框架,实现话题案例知识表示,并在层次语义树基础上,利用案例融合策略实现话题案例知识库的动态更新,使用最大容忍优化策略解决话题质心漂移问题。实验结果表明,通过提高话题案例知识的全面性和内聚性,该模型能够改进话题检测和追踪的效果。
- 赵立永李爱民
- 关键词:案例知识库动态模型
- 领域科学数据云资源聚合模型被引量:5
- 2013年
- 数据中心作为领域科学数据资源的核心设施,正在变得过于复杂、昂贵和低效。大规模领域应用和用户数量的增长,给数据中心的连接性、稳定性和安全性带来严峻的挑战。关于数据中心的资源整合、自动部署以及资源集中化管理正在受到当前学术界和企业界的广泛关注。以实现领域数据中心资源聚合、共享以及统一管理为目的,通过构建领域科学数据云,将多个数据中心连接成一种虚拟的数据网络,以便为领域数据访问、数据集成和数据管理提供环境和服务支持。着重研究了数据云代理模型、异构源共享模型以及资源消息模型。这些模型对于提高数据中心可扩展性和容错性、降低数据中心资源整合成本以及实现从传统数据中心向云化数据中心过渡起到非常关键的作用。最后,将领域科学数据云资源聚合模型引入到油气井科研数据共享服务平台的开发、部署、运行及监控管理中。实践表明,领域科学数据云模型是切实可行的,对于推动领域数据集成、共享、管理研究具有重要的参考意义和应用价值。
- 葛敬军胡长军刘歆李扬刘振宇
- 关键词:数据共享虚拟化
- 面向领域科学数据的虚拟数据空间共享模型被引量:6
- 2014年
- 以实现领域科学数据共享为目的,提出一种基于虚拟数据空间的共享模型.通过探讨模型中的主体、数据、服务与空间四要素,研究基于逻辑实体和逻辑实体集的领域科学数据聚合.针对领域内的各类应用主题以及个体的需求,将分散的领域科学数据聚集成与服务相关的虚拟数据空间,利用主体对服务的共享来实现数据的共享.最后,以石油领域油气井科研数据管理平台为例,阐述油气井科研数据共享的实现过程.实际应用表明,虚拟数据空间共享模型对于领域科学数据共享是高效可行的,并为数据密集型应用、领域内的服务开发与部署提供了良好的支持.
- 葛敬军胡长军刘歆李扬刘震宇
- 关键词:数据共享
- 基于MapReduce的微博文本采集平台被引量:5
- 2012年
- 微博不仅数据量大,而且实时性高,采用传统的Web文本爬取方式,很难在短时间内获取足量的微博。为了解决研究微博数据面临的数据采集问题,提出了基于MapReduce的微博数据采集平台,将整个微博抓取系统部署在hadoop平台上,充分利用hadoop分布式框架的特点,实现多节点同时抓取微博,很大程度上提高了抓取速率;并就微博采集过程中因输入数据过小导致hadoop不能有效均衡负载的问题,提出了采用多个小文件的输入方式,有效地解决了负载不均衡的问题。最后以Sina微博为例进行结,结果表明,该系统成本低、扩展性好、效率高,可广泛应用于基于微博数据的舆情分析以及传播学和虚拟社会学等方面的研究,并作为其基础数据采集平台。
- 于留宝胡长军苏林晗
- 关键词:HADOOPMAPREDUCE数据采集SINA
- 基于表情图片与情感词的中文微博情感分析被引量:55
- 2012年
- 微博是Web 2.0时代新生的社会化媒体平台,网民通过微博抒发自己的情感,表达自己的喜怒哀乐与爱恶,从而产生了海量的情感文本信息。通过对情感信息的分析,可以得到网民的情绪状况、对某个社会现象的观点、某个产品的喜好等信息,其不仅有一定的商业价值,还对社会的稳定有所帮助。利用微博中的表情图片,并结合情感词语的方法来构建中文微博情感语料库,既保证了语料库的规模与准确性,又省去了人工的负担;在情感语料库的基础上,构建贝叶斯分类器;最后利用熵的概念对语料库进行优化,提高了分类的准确性,并比较了使用不同n-gram特征项的性能。最终发现,使用UniGram特征项并用熵进行优化之后,分类的效果最好,召回率和准确率都可以达到85%以上,F值甚至可以达到89%以上。
- 张珊于留宝胡长军
- 关键词:情感分析
- VxBPELEngine:一种变化驱动的适应性服务组装引擎被引量:2
- 2013年
- 近年来,面向服务的架构(SOA)正逐渐成为分布式系统开发的新范型.为了满足快速变化的需求,服务组装应具备足够的适应性.针对目前广泛采纳的服务组装语言BPEL在适应性支持方面存在的不足,对标准BPEL进行扩展,开发了VxBPEL,支持服务组装中的可变性设计.为了在运行时刻解释与执行服务组装中的可变性定义与可变性配置,基于开源BPEL引擎ActiveBPEL开发了VxBPEL引擎VxBPELEngine.通过实例系统验证了基于可变性设计的适应性服务组装方法的可行性,评估了VxBPELEngine引擎的性能.
- 孙昌爱薛铁恒胡长军
- 关键词:WEB服务BPEL
- 一种适用于复合术语的本体概念学习方法被引量:10
- 2013年
- 术语的提取显然在本体概念学习中起着重要作用,由于汉语文本中词与词之间没有明显的界限,使得领域术语特别是复合术语的提取尤为困难。针对传统提取方法缺乏语义支持、计算量大、准确率低等不足,提出了一种适用于复合术语提取的本体概念学习方法。首先利用自然语言处理技术过滤掉与术语无关的成分,对语句进行自然切割,为领域术语提取提供完整的候选数据集,以保证候选领域复合术语不被误分。在此基础上,根据术语的领域统计和分布特征,利用术语频率和信息熵进行多策略的领域术语筛选,经同义术语识别与合并,获得领域概念集。经实验验证,提出的方法能够以较高的准确率从领域文本中提取出领域单词术语和复合术语。
- 李江华时鹏胡长军
- 本体搜索与排序方法研究综述被引量:6
- 2013年
- 本体是知识共享的重要工具,也是语义Web的支柱.随着语义Web的发展,网络上出现了大量的本体.同时,为提高系统通讯、互操作和自动处理的能力,越来越多的应用需要使用本体来实现知识共享和重用.由于本体的构建通常是一个耗时且繁琐的人工劳动过程,因此一个高效的解决方案是从Web上为应用搜索合适的本体进行重用.为此,一些研究者开发了本体搜索引擎和原型系统,提供本体搜索与排序服务.本文主要从本体的收集、处理、用户接口、搜索机制和排序机制等方面,综述了近来年出现的本体搜索工具和相关研究进展,详细阐述了各自的设计原理和实现技术.在此基础上,重点分析了用户接口查询机制和本体排序方法两方面存在的不足,并指出了未来的研究和发展方向.
- 李江华时鹏胡长军
- 关键词:本体搜索引擎知识重用
- 一种面向Web服务的综合可信性度量模型
- 2014年
- 基于Web服务的可信应用程序构造的一个关键问题是如何度量Web服务的可信性.在遵循Web服务特点的基础上,提出一个综合的Web服务可信性度量模型TMM4WS,从Web服务的内部实现和外部使用两方面对Web服务的可信性进行度量,开发了相应的度量支持工具TMT4WS.采用Web服务实例对提出的度量模型与工具进行了验证.实验结果表明,度量模型TMM4WS及其支持工具TMT4WS具有较好的可操作性,能够定量地度量Web服务的可信性.
- 孙昌爱赵敏何啸
- 关键词:WEB服务
- 语义可配置的模型转换被引量:4
- 2013年
- 模型转换是模型驱动体系结构的核心技术之一.在一个复杂的模型驱动的开发过程中,可能同时使用多种转换语言及相应的工具实现转换程序.这一方面增加了开发人员的学习负担,也会导致各种兼容性问题的出现.提出一种语义可配置的模型转换技术,通过重新定义转换语言的语义,允许开发人员使用一种转换语言解决不同的转换问题.首先,总结出一组常见的转换原语;然后,利用一种基于OCL的脚本语言TSS来描述转换语言的语义;最后,对该方法的完全性、表达能力和复杂度进行了讨论,并通过一组案例对该方法进行了验证.
- 何啸麻志毅王瑞超邵维忠
- 关键词:模型驱动体系结构