您的位置: 专家智库 > >

都菁

作品数:2 被引量:12H指数:1
供职机构:西南大学计算机与信息科学学院更多>>
发文基金:博士科研启动基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 2篇登录
  • 2篇中文
  • 2篇中文分词
  • 2篇未登录词
  • 2篇分词
  • 1篇信息查询
  • 1篇数据挖掘
  • 1篇自动识别
  • 1篇网络
  • 1篇网络蜘蛛
  • 1篇查询

机构

  • 2篇西南大学

作者

  • 2篇都菁
  • 1篇熊海灵

传媒

  • 1篇计算机工程与...

年份

  • 2篇2010
2 条 记 录,以下是 1-2
排序方式:
基于论坛语料的未登录词自动识别新方法
未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然后对该语料库进行周期性的更新以随时保持语料的新鲜度,以构...
都菁
关键词:信息查询数据挖掘中文分词
文献传递
基于论坛语料识别中文未登录词的方法被引量:11
2010年
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。
都菁熊海灵
关键词:未登录词中文分词网络蜘蛛
共1页<1>
聚类工具0