2024年8月5日
星期一
|
欢迎来到维普•公共文化服务平台
登录
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
都菁
作品数:
2
被引量:12
H指数:1
供职机构:
西南大学计算机与信息科学学院
更多>>
发文基金:
博士科研启动基金
国家自然科学基金
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
熊海灵
西南大学计算机与信息科学学院
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
期刊文章
1篇
学位论文
领域
2篇
自动化与计算...
主题
2篇
登录
2篇
中文
2篇
中文分词
2篇
未登录词
2篇
分词
1篇
信息查询
1篇
数据挖掘
1篇
自动识别
1篇
网络
1篇
网络蜘蛛
1篇
查询
机构
2篇
西南大学
作者
2篇
都菁
1篇
熊海灵
传媒
1篇
计算机工程与...
年份
2篇
2010
共
2
条 记 录,以下是 1-2
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于论坛语料的未登录词自动识别新方法
未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然后对该语料库进行周期性的更新以随时保持语料的新鲜度,以构...
都菁
关键词:
信息查询
数据挖掘
中文分词
文献传递
基于论坛语料识别中文未登录词的方法
被引量:11
2010年
为解决中文分词中未登录词识别效率低的问题,提出了基于论坛语料识别中文未登录词的新方法。利用网络蜘蛛下载论坛网页构建一个语料库,并对该语料库进行周期性的更新以获取具备较强时效性的语料;利用构造出的新统计量MD(由Mutual Information函数和Duplicated Combination Frequency函数构造)对语料库进行分词产生候选词表;最后通过对比候选词表与原始词表发现未登录词,并将识别出的未登陆词扩充到词库中。实验结果表明,该方法可以有效提高未登录词的识别效率。
都菁
熊海灵
关键词:
未登录词
中文分词
网络蜘蛛
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张