路高飞
- 作品数:7 被引量:28H指数:2
- 供职机构:南京大学信息管理学院更多>>
- 发文基金:国家社会科学基金国家高技术研究发展计划国家自然科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- Stemming和Lemmatization对英文文本聚类的影响研究被引量:2
- 2012年
- 词干化、词形还原是英文文本处理中的一个重要步骤。本文利用3种聚类算法对两个Stemming算法和一个Lemmatization算法进行较为全面的实验。结果表明,Stemming和Lemmatization都可以提高英文文本聚类的聚类效果和效率,但对聚类结果的影响并不显著。相比于Snowball Stemmer和Stanford Lemmatizer,Porter Stemmer方法在Entropy和Pu-rity表现上更好,也更为稳定。
- 韩普王东波路高飞
- 关键词:文本聚类信息检索
- 工具书对我国人文社会科学研究的影响分析
- 2012年
- 本文借助于CSSCI2000-2007年间,人文社会科学各学科论文引用次数较多的工具书的相关数据。首先从工具书占本学科入选工具书比例、占本学科入选图书总引次数比例等方面,借助于柱状图分析工具书对我国人文社会学科各个学科的影响概况。然后,对工具书分类阐述对学科的影响。最后提出一些建议。
- 路高飞邓三鸿
- 关键词:工具书人文社会科学CSSCI引文分析
- 两种Zipf定律拟合方法的对比实证研究
- 2012年
- 采用普通最小二乘法和最大似然估计两种方法分别对Zipf定律的分布进行拟合比较研究。普通最小二乘法是目前曲线拟合中普遍采用的方法,而最大似然估计是曲线拟合更为合理的方法。分别利用三组中文和三组英文语料,对两种方法进行对比实证研究,结果发现最大似然估计方法的拟合更合理,对Zipf定律的拟合比普通最小二乘法好,同时发现英文词汇比中文更好地符合Zipf定律分布,即中文语料不严格符合经典的Zipf定律分布。本研究可以为幂律拟合的研究提供一些参考。
- 路高飞韩普沈思
- 关键词:普通最小二乘法最大似然估计
- 语言网络研究进展被引量:11
- 2014年
- 语言网络作为一个新的研究领域,其研究正在迅速崛起,目前已经吸引了不少领域的研究者们的关注。该文首先简要介绍了语言网络的特点、常用的统计特征以及相关的网络模型;其次,根据语言构成单位以及当前语言网络研究热点,将语言网络分为语音网络、共现网络、依存句法网络、概念语义网络,并详细介绍了各类语言网络研究的主要进展。最后总结了语言网络研究的现状并给出了展望。
- 韩普王东波路高飞苏新宁
- 关键词:语言网络小世界现象
- 云计算在国内外数字图书馆中的应用及进展被引量:14
- 2012年
- 云计算是当前信息技术的研究热点,其应用正逐渐普及,云计算的快速发展引起了图书馆界的关注。本文介绍了国内外云计算的应用现状,讨论了国内外图书馆利用云计算的情况,分析了云计算在图书馆应用中的阻碍并对其应用进行了展望。
- 韩普沈思路高飞
- 关键词:云计算数字图书馆网格计算
- 国内外竞争情报系统研究对比计量分析被引量:1
- 2013年
- 本文通过使用国际上的WoS的期刊数据库和中文的CNKI期刊全文数据库,对国际与国内有关竞争情报系统为主题的研究文献使用统计学、文献计量学和社会网络分析等方法,从文献的年代分布、关键词、作者和期刊分布等角度进行对比计量分析,并使用相关的图形和列表进行了展示,进而可以帮助现有研究者从宏观上了解该领域国际与国内的差别,进而更好的从事相关研究。
- 路高飞韩普邓三鸿
- 关键词:竞争情报系统竞争情报文献计量分析CNKIWOS
- 基于最大似然估计方法的齐普夫定律验证
- 2012年
- 文章采用最大似然估计的方法对齐普夫分布曲线进行拟合。该方法对齐普夫定律的词谱分布,利用KS检验的方法得到在双对数坐标下拟合度最优的直线。与传统的最小二乘法相比,该方法拟合结果更为准确。为了验证该方法的有效性,通过3组中英文语料实验发现,英文较好地符合齐普夫定律,中文并不太符合。
- 韩普路高飞王东波
- 关键词:齐普夫定律最大似然估计