韩普
- 作品数:28 被引量:118H指数:7
- 供职机构:南京邮电大学更多>>
- 发文基金:国家社会科学基金国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字社会学更多>>
- 知识组织视角下汉英句法组合呈现规律研究
- 本文基于知识组织的内涵,从句法功能分布的角度,揭示了汉英句法组合的呈现规律,即汉英词汇句法功能分布复杂度呈现洛特卡现象.基于宾州大学18784个汉语句子和107298英语句子的树库,本文具体统计了汉英词汇的句法功能,并通...
- 王东波韩普沈思
- 文献传递
- 基于复杂网络的汉语相似词挖掘和相似度计算研究被引量:5
- 2015年
- 相似词是自然语言中普遍存在的现象,词汇相似度计算是情报学、自然语言处理和信息处理等领域的一项中间步骤。首先,基于大规模语料库构建了汉语词汇共现网络,进而利用复杂网络结构中节点相似的思想来计算词汇的相似度。其次,基于分布假设、上下文语境理论和词汇网络结构的特点,本文提出了基于贡献度折扣的词汇相似度计算方法,该方法不仅考虑了网络边的权重信息,还将节点的全局度特征融合进来。通过节点相似度实验发现,本文提出的基于贡献度折扣的相似度算法要明显好于共同邻居法、Jaccard方法和Sahon方法。最后文章就实验结果及其结论做了详细分析。
- 韩普王东波朱恒民
- 关键词:复杂网络语料库词汇相似度语义相关度
- Stemming和Lemmatization对英文文本聚类的影响研究被引量:2
- 2012年
- 词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
- 韩普王东波路高飞
- 关键词:文本聚类信息检索
- 国内外竞争情报系统研究对比计量分析被引量:1
- 2013年
- 本文通过使用国际上的WoS的期刊数据库和中文的CNKI期刊全文数据库,对国际与国内有关竞争情报系统为主题的研究文献使用统计学、文献计量学和社会网络分析等方法,从文献的年代分布、关键词、作者和期刊分布等角度进行对比计量分析,并使用相关的图形和列表进行了展示,进而可以帮助现有研究者从宏观上了解该领域国际与国内的差别,进而更好的从事相关研究。
- 路高飞韩普邓三鸿
- 关键词:竞争情报系统竞争情报文献计量分析CNKIWOS
- 基于英汉双语短语级平行语料的类别知识挖掘研究被引量:1
- 2012年
- 在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。
- 王东波韩普沈思魏向清
- HMM在自然语言处理领域中的应用研究被引量:16
- 2010年
- 隐马尔可夫模型(HMM)是一种强大的统计学机器学习技术,该模型已经成功地应用于连续语音识别、在线手写识别,在生物学信息中也得到了广泛的应用。由于该模型的强大的学习能力,在自然语言处理领域逐渐得到了应用。对隐马尔可夫模型在词性标注、命名实体识别、信息抽取应用中的关键问题进行了分析,着重分析了在信息抽取时使用隐马尔可夫模型的重点和难点问题,期望让更多的研究人员进一步认识和了解HMM。最后分析了隐马尔可夫模型在应用中的不足之处和改进研究。
- 韩普姜杰
- 关键词:隐马尔可夫模型信息抽取词性标注
- 基于WEKA的中文文本聚类研究
- 利用WEKA平台对中文文本进行了聚类实验研究。作为国外一款优秀的开源数据挖掘软件,在国内用来做中文信息处理研究的却很少。通过调整WEKA 中特征选择参数,利用 K-means 算法对中文文本聚类实验。并采用召回率、准确率...
- 韩普刘艳云
- 关键词:WEKA平台文本聚类文本特征中文文本
- 云计算在国内外数字图书馆中的应用及进展被引量:14
- 2012年
- 云计算是当前信息技术的研究热点,其应用正逐渐普及,云计算的快速发展引起了图书馆界的关注。本文介绍了国内外云计算的应用现状,讨论了国内外图书馆利用云计算的情况,分析了云计算在图书馆应用中的阻碍并对其应用进行了展望。
- 韩普沈思路高飞
- 关键词:云计算数字图书馆网格计算
- 基于汉语树库的名词短语知识计量分析
- 2013年
- 基于清华汉语树库,构建了多叉树结构的句法树。分别从名词短语的内部结构、内部词性序列、外部句法功能和左右边界特征几个方面,对清华汉语树库中的名词短语进行了知识计量统计分析。本文的研究可为名词短语的自动识别提供更全面的语言学知识和语言学规则,也为其它短语结构识别提供可借鉴的方法。最终为自然语言处理中的句法分析和语义分析提供数据支持。
- 韩普王东波
- 关键词:名词短语知识计量
- 网络论坛监测系统研究与原型实现
- 随着Web2.0技术的成熟和广泛应用,网络论坛在人们的日常生活和工作学习中扮演着越来越重要的角色,人们可以自由方便地在网络论坛中与他人沟通交流。网络论坛的诸多优点吸引了大量网络用户参与其中,这些用户的在线活动使得网络论坛...
- 韩普
- 关键词:网络论坛数据采集信息抽取
- 文献传递