阳怡林
- 作品数:5 被引量:9H指数:2
- 供职机构:解放军信息工程大学更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 人名消歧关键技术研究
- 人名存在歧义性,给人物信息检索、实体语义知识库构建、实体信息抽取等带来了严重的困难。人名消歧技术研究如何将同名人物实体指称项按照现实中具体的人进行分类,是近几年自然语言处理技术的一个研究热点。本文主要研究人名消歧技术,包...
- 阳怡林
- 关键词:人名消歧凝聚层次聚类相似度矩阵
- 文献传递
- 人名消歧研究综述被引量:1
- 2016年
- 人名歧义性是自然语言处理中亟待解决的问题。首先介绍了人名消歧的研究背景与研究意义;其次,给出了基于聚类的人名消歧与基于实体链接的人名消歧的定义以及区别;然后,重点分析了以上两种人名消歧的研究方法以及存在的问题,并给出了可能的解决方案;最后,对全文进行总结并给出下一步的研究方向。
- 阳怡林陈刚周杰李弼程
- 关键词:人名消歧歧义性聚类
- 基于职业特征的人名消歧算法被引量:2
- 2016年
- 职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。
- 阳怡林周杰李弼程李爱国
- 关键词:亲和度人名消歧凝聚层次聚类
- 基于分步聚类的人名消歧算法被引量:3
- 2016年
- 针对知识库中存在单条实体定义特征稀疏和人工设置相似度阈值适用性不强的问题,本文提出了一种基于分步聚类的人名消歧算法。首先,将知识库中人名实体定义的人物属性特征作为查询特征,利用文本检索的方式实现基于知识库的初次聚类,弥补了知识库中单条实体定义中特征稀疏的问题;然后,利用初次聚类的结果,采用基于自适应阈值的凝聚层次聚类算法实现知识库人名消歧;最后,采用条件随机场进行Other类识别,利用基于自适应阈值的凝聚层次聚类完成S类聚类,从而实现非知识库人名消歧。在CLP2012的中文人名消歧评测语料上进行实验,结果表明本文的算法能够有效地对人名进行消歧。
- 阳怡林周杰李弼程席耀一
- 关键词:人名消歧文本检索凝聚层次聚类
- 基于聚类集成的人名消歧算法被引量:6
- 2016年
- 传统人名消歧算法中,每类特征仅反映人物实体的部分信息,且不同聚类算法各有优缺点。提出了一种基于聚类集成的人名消歧算法。从文本中提取上下文特征、实体特征、社会关系特征得到三个相似度矩阵,并对这三个相似度矩阵进行融合得到一个融合相似度矩阵,把这四个相似度矩阵作为输入,利用不同的聚类算法得到不同的划分,采用基于均方误差邻接矩阵聚类(squared error adjacency matrix clustering,SEAM)算法对这些划分进行集成,实现人名消歧。在CLP2010人名消歧训练语料上进行实验,结果表明,新算法有效地提高了人名消歧的准确性和鲁棒性。
- 阳怡林周杰李弼程
- 关键词:聚类集成人名消歧凝聚层次聚类相似度矩阵