您的位置: 专家智库 > >

国家高技术研究发展计划(2010AA012505)

作品数:5 被引量:40H指数:3
相关作者:王挺刘伍颖林旺群周斌邓镭更多>>
相关机构:国防科学技术大学解放军外国语学院上海交通大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇期刊文章
  • 3篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 2篇消歧
  • 2篇MAPRED...
  • 1篇狄利克雷
  • 1篇信息过滤
  • 1篇隐马尔可夫模...
  • 1篇用户
  • 1篇用户兴趣
  • 1篇邮件
  • 1篇邮件过滤
  • 1篇数据库
  • 1篇文本数据
  • 1篇向量
  • 1篇向量空间
  • 1篇向量空间模型
  • 1篇消歧方法
  • 1篇马尔可夫
  • 1篇马尔可夫模型
  • 1篇名词
  • 1篇接口
  • 1篇垃圾邮件

机构

  • 6篇国防科学技术...
  • 1篇上海交通大学
  • 1篇中国人民解放...
  • 1篇解放军外国语...

作者

  • 2篇王挺
  • 2篇贾焰
  • 2篇杨树强
  • 2篇周斌
  • 1篇邹鹏
  • 1篇吴泉源
  • 1篇张禄彭
  • 1篇丁兆云
  • 1篇刘伍颖
  • 1篇王之元
  • 1篇邓镭
  • 1篇刘功申
  • 1篇林旺群
  • 1篇徐锡山
  • 1篇周云
  • 1篇易绵竹
  • 1篇李虎
  • 1篇肖英
  • 1篇喻承
  • 1篇何文垒

传媒

  • 1篇计算机研究与...
  • 1篇计算机学报
  • 1篇中文信息学报
  • 1篇计算机科学
  • 1篇China ...
  • 1篇第九届中国通...

年份

  • 1篇2014
  • 6篇2012
  • 1篇2011
5 条 记 录,以下是 1-8
排序方式:
基于序列标注的全词消歧方法
2012年
全词消歧(All-Words Word Sense Disambiguation)可以看作一个序列标注问题,该文提出了两种基于序列标注的全词消歧方法,它们分别基于隐马尔可夫模型(Hidden Markov Model,HMM)和最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)。首先,我们用HMM对全词消歧进行建模。然后,针对HMM只能利用词形观察值的缺点,我们将上述HMM模型推广为MEMM模型,将大量上下文特征集成到模型中。对于全词消歧这类超大状态问题,在HMM和MEMM模型中均存在数据稀疏和时间复杂度过高的问题,我们通过柱状搜索Viterbi算法和平滑策略来解决。最后,我们在Senseval-2和Senseval-3的数据集上进行了评测,该文提出的MEMM方法的F1值为0.654,超过了该评测上所有的基于序列标注的方法。
周云王挺易绵竹张禄彭王之元
关键词:隐马尔可夫模型
一种基于Map Reduce的分布式文本数据过滤模型研究
该文首先介绍了文本过滤模型的特点以及发展状况。针对传统信息过滤处理方式无法满足现阶段海量数据环境下业务需求这一现状,该文提出了一种基于MapReduce框架的文本数据过滤模型,实现了传统的向量空间模型的分布式扩展。在实际...
李虎邹鹏贾焰周斌
关键词:信息过滤MAPREDUCE向量空间模型TFIDF
文献传递
一种新型的层次化动态社区并行计算方法被引量:9
2012年
文中提出了一种可并行分解的层次化动态社区发现算法D-SNCD(Dynamic Social Network CommunityDiscovery).D-SNCD算法充分利用复杂动态社会网络变化的局部性,对算法生成的层次化社区树HOT(Hierar-chical cOmmunity Tree)的分枝进行选择性更新.与传统的对动态社会网络直接采用快照方式进行社区发现相比,D-SNCD算法在效率上取得了明显的提高.由于D-SNCD是对已有的静态社区并行计算方法P-SNCD(ParallelSocial Network Community Discovery)的进一步扩展,因而D-SNCD保持着P-SNCD算法的高扩展性和高分辨率等优点.另外,D-SNCD算法对用户参数输入要求简单.严格的数学证明和充分的实验数据保证了整个算法的正确性和有效性.
林旺群邓镭丁兆云吴泉源贾焰周斌
关键词:并行计算
Mining User Interest in Microblogs with a User-Topic Model被引量:17
2014年
Microblogs have become an important platform for people to publish,transform information and acquire knowledge.This paper focuses on the problem of discovering user interest in microblogs.In this paper,we propose a topic mining model based on Latent Dirichlet Allocation(LDA) named user-topic model.For each user,the interests are divided into two parts by different ways to generate the microblogs:original interest and retweet interest.We represent a Gibbs sampling implementation for inference the parameters of our model,and discover not only user's original interest,but also retweet interest.Then we combine original interest and retweet interest to compute interest words for users.Experiments on a dataset of Sina microblogs demonstrate that our model is able to discover user interest effectively and outperforms existing topic models in this task.And we find that original interest and retweet interest are similar and the topics of interest contain user labels.The interest words discovered by our model reflect user labels,but range is much broader.
HE LiJIA YanHAN WeihongDING Zhaoyun
关键词:用户兴趣GIBBS抽样狄利克雷LDA
面向海量数据非关系数据库的测试基准研究
海量数据非关系数据库虽然起步晚,但其具有传统关系数据库不能比拟的优势和特点,因此发展十分迅速。在当下云计算风起云涌,数据量越来越庞大,数据访问和数据处理越来越频繁的时代,海量数据非关系数据库越来越发挥其重要作用。然而,使...
喻承杨树强肖英
关键词:NOSQL数据库
文献传递
基于语义密度的名词消歧算法被引量:2
2012年
提出了一种以概念相关性为主要依据的名词消歧算法。与现有算法不同的是,该算法在WordNet上对两个语义之间的语义距离进行了拓展,定义了一组语义之间的语义密度,从而量化了一组语义之间的相关性。将相关性转化为语义密度后,再进行消歧。还提出了一种在WordNet上的类似LSH的语义哈希,从而大大降低了语义密度的计算复杂度以及整个消歧算法的计算复杂度。在SemCor上对该算法进行了测试和评估。
何文垒刘功申
关键词:消歧
针对HBase的MapReduce访问接口的优化
现有的HBase提供的MapReduce访问接口存在数据读取速度较慢的问题。针对此问题本文提出了一种改进方法,该方法不以原来的逻辑存储单元Region作为任务分配的基本单位,而是以HBase的物理存储单元Block作为任...
田胜利徐锡山杨树强华中杰
关键词:HBASEMAPREDUCE
文献传递
结构化集成学习垃圾邮件过滤被引量:12
2012年
为了解决垃圾邮件过滤算法低计算复杂度与高分类准确率之间的矛盾,在多域学习框架下提出一种结构化集成学习思想,它根据文档结构组合多个基分类器的结果以追求更高分类性能.采用邮件文档的字符串特征生成多个轻量基分类器,并采用字符串-频率索引存储标注数据,使得每次更新和查询的时间开销是常数量级.根据邮件文档的多域结构特性,提出历史域分类器效力线性组合权和当前域文档分类能力线性组合权.综合考虑历史域分类器效力和当前域文档分类能力,还提出一种能够提高整体分类准确率的综合线性组合权.在TREC立即全反馈垃圾邮件过滤任务上的实验结果表明:基于综合线性组合权的结构化集成学习方法能够在较短的时间(47.24min)内完成过滤任务,整体性能1-ROCA达到参加TREC2007评测的最优过滤器性能(0.005 5).
刘伍颖王挺
关键词:垃圾邮件过滤
共1页<1>
聚类工具0