何世柱
- 作品数:9 被引量:40H指数:3
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金江西省自然科学基金江西省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于特征加权的半监督聚类研究
- 2011年
- 目前在半监督聚类的研究中,尤其是当有类标信息的类的数量少于整个数据集的类的数量时,其聚类效果并不好。本文在现有半监督聚类技术的基础上,通过特征加权来提高同一类文档的相似性,从而得到更好的聚类效果。为了验证这一思想的有效性,实验不仅在单语言数据集上进行,还在中、英双语数据集上进行了只包含中文或英文类标时的聚类实验。实验结果表明,该方法体现出良好的性能。
- 黎佳王明文何世柱柯丽
- 关键词:特征加权多语言半监督聚类
- 基于随机游走和聚类平滑的协同过滤推荐算法被引量:3
- 2011年
- 协同过滤是电子商务推荐系统中被广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。本文针对数据稀疏问题提出一种基于随机游走和聚类平滑的两阶段协同过滤推荐算法。离线阶段:计算项目间相关性,提出了一个新的方法即通过加权累加各步转移概率对项目间相关性进行描述。根据得到的项目相关性矩阵对项目聚类,利用聚类信息对未评分数据进行平滑处理。在线阶段:根据离线阶段得到的项目间相关性查找目标项目的邻居并进行预测。本文提出的方法能加强项目间相关性的描述。实验表明,根据用该方法得到的项目相关性矩阵查找邻居更加准确,可以有效地缓解稀疏数据的影响,改善推荐的性能。
- 周军军王明文何世柱石松
- 关键词:协同过滤随机游走MAE
- 文本分类和聚类若干模型的研究
- 随着互联网上文本数据的持续暴涨式增长,文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个问题提出了改进模型。
对于有监督学习中的文本分类问题,...
- 何世柱
- 关键词:文本挖掘文本聚类MARKOV网络关系矩阵
- 基于频率共现熵的跨语言网页自动分类研究被引量:3
- 2011年
- 研究了基于频率共现熵的跨语言网页自动分类问题,使用翻译软件将所有中文网页翻译为英文,计算中文和英文网页的共现特征频率共现熵值,确定中文和英文网页的共现知识,并与英文网页相结合训练中文分类模型.实验结果表明,该方法与贝叶斯分类模型、向量空间分类模型和信息瓶颈模型相比体现出良好的性能.
- 柯丽王明文何世柱黎佳罗远胜
- 关键词:跨语言网页分类贝叶斯分类
- 融合多种特征的实体链接技术研究
- 2016年
- 实体消歧是自然语言理解的重要研究内容,旨在解决文本信息中普遍存在的命名实体歧义问题,在信息抽取、知识工程和语义网络等领域有广泛的应用价值。实体链接是实体消歧的一种重要方法,该方法将具有歧义的实体指称项链接到给定的知识库中从而实现实体歧义的消除[1]。传统的实体链接方法主要利用上下文的词语匹配等表层特征,缺乏深层语义信息,针对这一问题,该文提出的实体链接方法利用了多种特征,从不同的维度捕获语义信息。为了更好地融合各个维度的特征,该文利用了基于排序学习框架的实体链接方法,与传统的方法相比,节省了人工对大量的模型参数选择和调节的工作,与基于分类的方法相比,能更好地利用到候选之间的关系信息。在TAC-KBP-2009的实体链接评测数据上的实验表明,该文提出的特征和方法表现出良好的性能,在评测指标上高出参赛队伍最好水平2.21%,达到84.38%。
- 陈玉博何世柱刘康赵军吕学强
- 基于Markov网络团的信息检索扩展模型被引量:3
- 2011年
- 全局分析方法是一种常用而能有效改善信息检索效果的查询扩展方法。通过计算词间相似度构造M arkov网络模型;然后由此模型加强候选词集中的词相关性描述,并提取了在Markov网络中词间的团结构;通过在查询中加入查询词所在团中的其他候选词进行查询扩展。实验表明基于Markov网络团的信息检索模型的检索效果优于基于一般的相似性矩阵查询扩展的检索效果;基于团提取方法的查询扩展的检索效果优于普通的基于提取方法的查询扩展检索效果。
- 石松王明文涂伟何世柱
- 关键词:查询扩展MARKOV网络
- 基于网络语义标签的多源知识库实体对齐算法被引量:27
- 2017年
- 知识库是多种自然语言处理任务的重要数据资源,但单一知识库覆盖度低,不同知识库异构性强,不利于数据的共享和集成.因此,多源知识库融合技术的研究有着十分重要的意义.其中,多源知识库实体对齐是多源知识库融合技术中的重要组成部分.在语义万维网发展的推动下,国外开展了很多相关工作,大多适用于英文知识库,对于中文知识库的研究较少.出于对中文知识库融合的研究目的,该文提出了一种基于网络语义标签的多源知识库实体对齐算法.该算法综合利用属性标签、类别标签和非结构化文本关键词,对齐中文百科实体.经实验测试,该算法能够较好地解决多源知识库实体对齐问题,算法在近95%的准确率下,仍能保持近55%的较好的召回率,应用于实际系统中,满足了实际的多源知识库实体对齐应用需求.
- 王雪鹏刘康何世柱刘树林张元哲赵军
- 关键词:异构
- 结合相关类别信息的大规模文本层次分类研究被引量:2
- 2011年
- 深层分类模型是一种解决大规模文本层次分类问题的有效范式。本文基于该范式提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时利用相关类别的分类结果确定最终类别。在ODP数据集上的实验表明,相对于最新型的深层分类方法,该模型具有一定优势。
- 何世柱王明文周军军石松
- 关键词:ROCCHIO
- 基于WEB资源的ComPaper10th中权威学者挖掘
- 文献检索中,自动发现指定研究领域的权威文献和权威学者,使用户对特定领域有全面、深刻、细致的认识和了解,不仅能使科研工作者能快速的进行相关研究,对普通用户了解领域知识也有很好的帮助。首先基于Lucene开源项目构建了一种文...
- 王明文何世柱
- 文献传递