您的位置: 专家智库 > >

国家教育部博士点基金(20101102120016)

作品数:2 被引量:30H指数:2
相关作者:巢文涵李舟军张小明周庆陈锋更多>>
相关机构:北京航空航天大学更多>>
发文基金:国家教育部博士点基金国家自然科学基金国家重点实验室开放基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇依存
  • 1篇情感
  • 1篇中文
  • 1篇话题检测与跟...
  • 1篇TDT

机构

  • 2篇北京航空航天...

作者

  • 2篇李舟军
  • 2篇巢文涵
  • 1篇张小明
  • 1篇陈锋
  • 1篇周庆

传媒

  • 1篇软件学报
  • 1篇计算机科学

年份

  • 1篇2014
  • 1篇2012
2 条 记 录,以下是 1-2
排序方式:
基于增量型聚类的自动话题检测研究被引量:23
2012年
随着网络信息飞速的发展,收集并组织相关信息变得越来越困难.话题检测与跟踪(topic detection andtracking,简称TDT)就是为解决该问题而提出来的研究方向.话题检测是TDT中重要的研究任务之一,其主要研究内容是把讨论相同话题的故事聚类到一起.虽然话题检测已经有了多年的研究,但面对日益变化的网络信息,它具有了更大的挑战性.提出了一种基于增量型聚类的和自动话题检测方法,该方法旨在提高话题检测的效率,并且能够自动检测出文本库中话题的数量.采用改进的权重算法计算特征的权重,通过自适应地提炼具有较强的主题辨别能力的文本特征来提高文档聚类的准确率,并且在聚类过程中利用BIC来判断话题类别的数目,同时利用话题的延续性特征来预聚类文档,并以此提高话题检测的速度.基于TDT-4语料库的实验结果表明,该方法能够大幅度提高话题检测的效率和准确率.
张小明李舟军巢文涵
关键词:话题检测与跟踪TDT
基于卷积树核的中文微博情感要素识别被引量:7
2014年
情感要素识别是情感分析的关键子任务之一,其目的是识别出文本情感所作用的情感对象。文本情感要素识别属于最细粒度的情感分析,吸引了大量研究者的关注。中文微博由于其语言简短灵活、文本不规范、噪声较大等特点,给中文微博情感分析研究工作带来了新的挑战。目前大部分情感要素识别方法都是基于规则的方法或者基于扁平化特征的统计学习方法,区分噪声的能力不强,性能提升有限。针对中文微博的特点,提出一种基于卷积树核的情感要素识别算法,即首先对句子进行词性标注与依存关系分析,将句子中的名词作为候选情感要素;然后基于两种不同的修剪策略对依存树进行修剪,以获取每个候选情感要素的结构化信息;最后采用卷积树核计算依存树的相似度,并在此基础上识别句子中的情感要素。NLP&CC2012和NLP&CC2013中文微博情感分析评测任务中的实验验证了该方法的性能,其准确率相比于传统方法有显著提升。
陈锋巢文涵周庆李舟军
共1页<1>
聚类工具0