杨欣欣
- 作品数:6 被引量:17H指数:3
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金模式识别国家重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于网页文本依存特征的人名消歧被引量:6
- 2012年
- 研究互联网中的人名消歧问题。抽取与网页文本中人名关键字实体相关的依存特征及命名实体等辅助特征,利用二层聚类算法,根据依存特征将可信度高的文档聚类,使用辅助特征将剩余文档加到现有聚类结果中,由此实现人名消歧。实验结果证明,该方法消歧效果优于其他人名消歧方法。
- 杨欣欣李培峰朱巧明
- 关键词:人名消歧聚类
- 基于状态和行为描述的情感分类方法
- 2012年
- 为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。
- 张慧王中卿李寿山杨欣欣李培峰朱巧明
- 关键词:中文信息处理情感分析最大熵分类器融合
- 一种基于改进的K-means算法的人名消歧系统的设计与实现
- 人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题.因为经典的K-means算法如果选择了一个差的随机初始...
- 杨欣欣李培峰朱巧明王英帅
- 关键词:人名消歧聚类K-MEANS算法
- 基于两步聚类和查询扩展的人名消歧方法的研究
- 人名具有很强的歧义,现实生活中同一个姓名可能被多个实体人物所使用。尤其在信息量快速增长的互联网中,人名歧义性问题已经成为一个迫切需要解决的问题。人名消歧研究的是将相同的人名按照现实世界中不同的人进行分类的方法,是近几年自...
- 杨欣欣
- 关键词:查询扩展
- 文献传递
- 基于查询扩展的人名消歧被引量:7
- 2012年
- 针对现有很多基于特征的人名消歧方法不适用于文档本身特征稀疏的问题,提出一种借助丰富的互联网资源,使用搜索引擎查询并扩展出更多与文档相关特征的方法。首先根据搜索引擎的特性构建了四类查询规则,然后通过这些查询规则进行搜索并返回前k个文档,最后对这些文档使用文档频率(DF)方法进行特征选择,并将选择的特征加入到原文档中。实验证明,该方法能显著提高人名消歧系统的性能,平均F值由76%增加到81%。
- 杨欣欣李培峰朱巧明
- 关键词:查询扩展搜索引擎人名消歧
- 一种基于改进的K-means算法的人名消歧系统的设计与实现被引量:5
- 2010年
- 人名歧义是一种身份不确定的现象,指的是文本中具有相同姓名的字符串指向现实世界中的不同实体人物。人名消歧很长时间一直是一个具有挑战性的问题,关注网页里的人名消歧的问题。因为经典的K-means算法如果选择了一个差的随机初始聚类中心,算法会遇到局部收敛的问题,所以文章提出一种基于最大最小原则的改进的K-means算法来进行人名消歧。同时使用了WePS的训练数据作为实验的语料。实验结果表明,改进的方法比层次聚类方法有着更好的性能。
- 杨欣欣李培峰朱巧明王英帅
- 关键词:人名消歧聚类