国家教育部博士点基金(20090001110047)
- 作品数:5 被引量:25H指数:3
- 相关作者:王厚峰陈晨焦妍张龙凯何正焱更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 商品品牌名称挖掘被引量:1
- 2012年
- 百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识,能够弥补普通词典词汇覆盖面小的缺点。在商品品牌名称挖掘中,该文提出了发现新的品牌名称的基于图模型的半指导方法。利用百度百科中词条间的相关关系和开放分类,该文使用不同的准则计算词条间的相似度,结合词条和分类的关联性,分类与分类之间的关联性,使用标记传播算法,在130万个词条上进行了品牌名称的挖掘,取得了较好地效果。
- 何正焱王厚峰
- 关键词:半监督学习图算法
- 基于条件随机场与Web数据的缩略语预测被引量:3
- 2012年
- 缩略语在自然语言中被广泛使用。因其是新词的重要来源之一,成为了自然语言处理领域的一大问题。该文以汉语为对象,研究了从完整形式预测缩略语形式的方法。首先,使用条件随机场模型对完整形式进行序列标注,生成缩略语候选集合。再利用搜索引擎获取网络数据,并通过不同策略利用网络数据对各候选依次评估,结合各项评估分数进行重排序,选择最终的缩略语结果。实验结果表明,增加Web信息之后,缩略语预测的准确率可以提高约五个百分点。
- 焦妍王厚峰张龙凯
- 关键词:缩略语CRF模型网页数据
- 汉语缩略语自动处理研究现状被引量:7
- 2011年
- 缩略语是自然语言中广泛使用的一类典型语言单元,也是最主要的新词来源。而新词会造成自然语言处理多个层面的困难。该文分析了汉语缩略语的特点,对汉语缩略语的构成形式作了总结,对汉语缩略语处理的问题作了划分,并针对不同的问题,重点介绍了在汉语中的研究现状;之后简要比较了汉语缩略语与英语缩略语的差异,并对英语缩略语处理的一些典型方法作了分析。
- 王厚峰
- 基于社会网络的跨文本同名消歧被引量:13
- 2011年
- 跨文本人名消歧是判断出现在不同文本的相同人名是否指称现实中相同实体的过程。跨文本人名消歧是准确获取感兴趣人物相关信息的基础,对多文本摘要、信息融合等具体应用也有重要的作用。该文运用社会网络分析法消歧中文不同文本同名歧义问题,思想是先使用谱聚类对社会网络中的人名聚类,然后根据不同社会网络边权值和不同图划分准则对人名消歧效果的影响,引入了模块度阈值作为社会网络划分的停止条件。在CLP2010的中文人名消歧数据上进行测试,显示了社会网络分析对人名消歧的有效性。
- 陈晨王厚峰
- 关键词:人名消歧社会网络谱聚类模块度
- 计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室被引量:3
- 2010年
- 本文介绍了近年来计算语言学歧义消解中的典型方法以及重点研究问题,并简要介绍了北京大学计算语言学教育部重点实验室的发展情况以及目前的重点研究方向。
- 王厚峰
- 关键词:歧义消解计算语言学
- 基于机器学习方法与搜索引擎验证的缩略语预测
- 在自然语言中广泛使用的缩略语是重要的新词来源之一,成为了自然语言处理的一大问题。本文研究了从完整形式预测缩略语形式的方法。首先,使用CRF模型对完整形式预测,形成一定量的缩略候选,再利用搜索引擎得到的结果信息对各候选依次...
- 焦妍王厚峰
- 关键词:缩略语CRF模型
- 文献传递
- 商品品牌名称挖掘
- 百度百科包含了大量的实体和丰富的链接与分类关系,在中文领域含有大量人类知识。在商品品牌名称抽取的挖掘中,我们提出了发现新的品牌名称的基于图模型的半指导方法。利用百度百科中词条间的相关关系和开放分类,我们使用不同的准则计算...
- 何正焱王厚峰
- 关键词:半监督学习图算法
- 文献传递