李永萍
- 作品数:9 被引量:7H指数:1
- 供职机构:南京邮电大学更多>>
- 发文基金:江苏省高校自然科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种文献作者重名检测方法
- 本发明公开了一种文献作者重名检测方法,属于数据挖掘技术领域。本发明方法充分利用了科技文献中单特征相似度以及单特征融合在对重名作者进行消歧的特点,首先对要使用到的文献对象进行建模,其次利用一种单特征相似度检测方法计算两两单...
- 徐小龙李永萍孙雁飞杨维荣王勇
- 文献传递
- 一种基于MapReduce的知识聚类与统计机制被引量:1
- 2016年
- 网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于Map Reduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-Co Matrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。
- 徐小龙李永萍
- 关键词:聚类MAPREDUCE
- 云计算领域科技文献统计与研究热点分析被引量:5
- 2015年
- 云计算技术目前已经成为研究热点,并有大量的研究成果以科技文献的方式面世。为能使云计算领域的科研人员理清知识脉络、提高文献调研效率,本文采取文献计量、知识分析与数据挖掘相结合的方法,并采用Hadoop的Map Reduce分布式计算平台,从定性和定量两个方面对2009至2014年国内研究人员在云计算领域发表的文献进行发文量统计和关键词聚类分析。文中以中国学术期刊网络出版总库2009至2014年收录的核心期刊中与云计算有关的4 195篇文献作为数据来源,具体从发文量、热点关键词排名、关键词聚类三个角度对近六年云计算领域的知识进行统计分析。在分析发文量时,重点分析了发文量随年度的分布情况;在分析关键词的词频时,统计了每一年的关键词词频,将总频次最高的若干关键词作为热点,分析了其随年度的分布情况;在分析关键词的聚类信息时,生成了共现矩阵和相似度矩阵,基于SPSS将相似度矩阵生成关键词聚类树,基于聚类树将目前国内云计算领域的研究总结为三个方向:云平台研究,优化策略研究,云计算应用研究。文中研究成果将有助于研究人员理解云计算的知识体系、研究重点和发展趋势,解决研究人员的认知迷航和知识过载问题。
- 徐小龙李永萍李涛
- 关键词:数据挖掘文献计量学
- 一种面向云存储系统的数据副本数量确定方法
- 本发明提出一种面向云存储系统的数据副本数量确定方法,其方法基于数据流行度与节点热度,以满足服务需求、控制数据副本数量为目标,对数据分类并预测不同数据的数据副本需求数,提前增加数据副本,或及时删除过多的数据副本,本发明方法...
- 徐小龙邹勤文徐佳邓艳王屹进刘笑笑李永萍涂群
- 面向云计算系统的多尺度任务量预测值的确定方法
- 针对目前单一尺度任务量预测方法所导致的任务量预测精度的难以控制问题,本发明提出的一种面向云计算系统的多尺度任务量预测值的确定方法,综合考虑云计算系统中任务量的长期趋势、周期波动和近期情况,以及当前突发的随机扰动事件,对未...
- 徐小龙章韵徐佳李千目李永萍马悦尹尚祁凯平
- 文献传递
- 面向云计算系统的多尺度任务量预测值的确定方法
- 针对目前单一尺度任务量预测方法所导致的任务量预测精度的难以控制问题,本发明提出的一种面向云计算系统的多尺度任务量预测值的确定方法,综合考虑云计算系统中任务量的长期趋势、周期波动和近期情况,以及当前突发的随机扰动事件,对未...
- 徐小龙章韵徐佳李千目李永萍马悦尹尚祁凯平
- 文献传递
- 一种面向云存储系统的数据副本数量确定方法
- 本发明提出一种面向云存储系统的数据副本数量确定方法,其方法基于数据流行度与节点热度,以满足服务需求、控制数据副本数量为目标,对数据分类并预测不同数据的数据副本需求数,提前增加数据副本,或及时删除过多的数据副本,本发明方法...
- 徐小龙邹勤文徐佳邓艳王屹进刘笑笑李永萍涂群
- 文献传递
- 一种文献作者重名检测方法
- 本发明公开了一种文献作者重名检测方法,属于数据挖掘技术领域。本发明方法充分利用了科技文献中单特征相似度以及单特征融合在对重名作者进行消歧的特点,首先对要使用到的文献对象进行建模,其次利用一种单特征相似度检测方法计算两两单...
- 徐小龙李永萍孙雁飞杨维荣王勇
- 基于知识聚类的文献统计与重名消歧机制的研究
- 在知识分析领域的研究中一直存在两个问题,一方面,网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题;另一方面,同名作者的辨识是一个非常重要和复杂的研究课题,在科技文献...
- 李永萍
- 关键词:知识聚类文献统计
- 文献传递