公共文化服务平台

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

基于论坛语料的未登录词自动识别新方法: 未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题，提出基于论坛语料对中文未登录词进行识别的新方法：首先利用网络蜘蛛下载论坛网页;然后对该语料库进行周期性的更新以随时保持语料的新鲜度，以构...; 都菁; 关键词：信息查询数据挖掘中文分词; 文献传递

基于论坛语料识别中文未登录词的方法被引量：11: 2010年; 为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。; 都菁熊海灵; 关键词：未登录词中文分词网络蜘蛛

全选清除导出

共1页<1>

都菁