国家自然科学基金(71303179)
- 作品数:12 被引量:124H指数:5
- 相关作者:王平叶光辉姬荣伟赵慧慧辜希武更多>>
- 相关机构:武汉大学学研究院华中科技大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金中国博士后科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于层次概率主题模型的科技文献主题发现及演化被引量:31
- 2014年
- 自动挖掘科技文献主题并识别主题变化对于科研工作者及时获取相关领域的最新研究动态有着重要作用。针对科技文献主题多样、动态性强等特点,分析科技文献主题发现及演化具体方法,基于层次概率主题模型h LDA,采用Gibbs抽样来进行模型参数估计,并运用互信息的方法对主题词进行筛选,以提取高质量的主题词。最后,利用先/后离散分析方法研究主题随时间的演化问题。实验结果验证了主题发现及演化方法的可行性及有效性。
- 王平
- 关键词:主题发现
- 专家检索与专家排名研究评述被引量:1
- 2017年
- 【目的】对已有专家检索与专家排名方法进行评述,为后续研究提供理论基础。【文献范围】从Web of Science(WOS)、CNKI等数据库中分别以"专家检索(Expert Retrieval)"、"专家排名(Expert Ranking)"、"排名融合(Ranking Fusion)"等为检索词搜集获得相关文献65篇。【方法】针对专家检索覆盖面不足及专家特征计算量大两方面问题,从专家检索评测和排名融合两个角度梳理并评析现有的研究进展。【结果】融合关系属性是目前专家检索方法的主流,检索结果可信度研究主要依据用户满意度和文档可信度开展;专家排名采用友邻推荐模型、Page Rank、D-S理论、社交网络与复杂网络分析等实现排名及排名融合,融合结果总体优于基准排名。【局限】不同排名融合方法间的横向对比研究较少。【结论】相关研究可为构建信息融合视角下的专家会诊平台提供参考,具体体现在专家信息组织、专家遴选和专家意见融合环节。
- 叶光辉夏立新
- 关键词:社交网络
- 基于递归张量神经网络的微信公众号文章的新颖度评估方法被引量:6
- 2019年
- 自媒体平台内容同质化问题日益严重,导致用户难以从中获取新颖优质的信息,因此对其文章内容进行新颖度评估就显得尤为重要。本文以微信公众号文章为例,提出了一种自媒体平台文章的新颖度评估方法,该方法利用非监督的句级Doc2Vec语言模型构建文本向量,基于递归张量神经网络构建新颖度测度模型,进而通过模型训练求解并量化评估文章的新颖度。本文从微信公众平台自动采集4,628篇文章开展实证研究,首先设置不同的张量切片数量进行对照实验,综合新颖度分布特征和训练时间计算最优参数,然后通过计算文档相似度验证了文章的新颖度和相似度之间的线性回归关系。该实验结果证明了本方法具有较强的可行性和有效性,从深度学习的视角拓展和丰富了文本新颖度评估的研究,也为自媒体平台的新颖话题探测和前沿知识发现提供了支撑。
- 王平侯景瑞吴任力
- 关键词:文本向量余弦相似度
- 面向中文微博摘录式摘要方法研究被引量:2
- 2015年
- 微博作为当前互联网最流行的社交媒体之一,其庞大的用户群体和用户数据使其具有巨大的商业价值。假设了两种微博数据的获取情景,并且提出七种具有微博特性的特征,使用线性模型对微博数据进行摘录式摘要实验,取得了良好的效果,证明中文微博的自动摘要是可行的。
- 陈卓群王平
- 关键词:特征抽取
- 社交博客用户分层与话题演化研究——以MetaFilter Music版块为例被引量:4
- 2015年
- 结合时序分析、聚类分析与复杂网络分析,对社交博客用户分层及话题演化进行了分析。依据用户在社交媒体中的活跃程度,设置关联强度阈值和比例,提取核心用户群体。统计各年度整个用户群体关注的热点话题,对比核心用户群体关注的热点话题,评估核心用户群体对热点话题衍生的影响大小。实证分析可知核心用户群体对热点话题衍生具有显著影响,长尾效应使得非核心用户群的影响也不能忽视。
- 杜海燕叶光辉
- 基于网站级网络文献引用的幂律分布规律研究被引量:2
- 2014年
- 为了揭示科研人员网络文献采纳行为及相关变量概率分布的幂律渐近行为,选取了中文社会科学引文索引CSSCI(1998-2009年)情报学和图书馆学期刊发表文献中引证的网络文献作为数据样本,结果表明网络文献采纳行为存在集中现象,且与加菲尔德提出的文献引用集中定律较为一致;同时运用KS统计量和极大似然估计拟合幂律分布xmin值和a指数进行幂律分布检验,并通过非参数Bootstrap方法估计出xmin不确定性,其结果证明网络文献采纳频次服从幂律分布。
- 王平
- 关键词:网络文献幂律分布极大似然估计
- 企业用户情报需求挖掘及资源关联可视化展示研究被引量:6
- 2014年
- 文章旨在识别和挖掘用户的显性及潜在情报需求,并通过形象化、可视化手段加以展示,实现情报用户需求的高效管理。模型基于用户相关历史文档、用户操作日志等文档,采用统计分析方法和日志分析技术,提取用户的情报行为数据,挖掘用户的情报需求,并基于计算机图形学和图像处理相关技术,利用prefuse-flare数据可视化技术创建FLASH文件,实现用户需求分布展示、需求演化分析及兴趣图谱呈现,对系统情报资源和网络资源进行多维度、任意属性的关联可视化展示。
- 王庆红王平
- 基于hLDA的科技文献主题摘要生成算法与实现——以电力行业论文为例被引量:1
- 2014年
- 随着信息爆炸时代的到来,科技文献数量的快速增长,科技工作者对于科技文献有效信息获取的要求也越来越高。本文提出了一种科技文献主题自动摘要生成算法。利用hLDA模型对科技文献数据集进行主题建模,并通过摘要候选句的选择,综合多个因素的句子打分策略,自动为科技文献中潜在的主题生成摘要。在实验中,提出基于主题覆盖度的摘要评价方法。实验结果验证了本文提出的主题摘要生成算法的有效性。
- 王庆红王平
- 基于显式语义分析的专家相似度研究被引量:1
- 2014年
- 借鉴文本相似度的算法思想,提出基于显式语义分析的专家相似度计算方法,以克服传统方法中语义联系不强的缺点。并以图书情报领域专家的学术信息为对象对该方法进行实验评测,实验结果显示基于显式语义分析的专家相似度相比传统相似度计算方法体现出一定优异性。
- 龚婷程齐凯
- 关键词:ESA语义相关
- 基于多重关系异构网络的学术实体权威度评估方法研究被引量:5
- 2014年
- 面对海量的科技文献资源,如何评估文献、作者和研究机构的学术质量和可信度引起了广泛关注。在众多可信度评价标准中,权威度是优先和关键的评价指标。因此,对科技文献、作者和机构等学术实体的科技实力和权威度进行研究与量化评估具有很大的现实意义。本文利用文献、作者、机构等三类实体间的引用、合著、合作等关系建立异构网络模型,在此基础上提出了混合随机游走算法Co-AcademicRank定量计算文献、作者、机构的权威度,并基于MapReduce实现了分布式的Co-AcademicRank算法。最后通过对情报学和图书馆学数据集测试与分析,对比分析了PageRank和Co-ranking算法,验证了本模型的有效性、准确性和优越性。同时,实验比较了算法在单机环境下和Hadoop平台下的运行时间,证明了分布式算法的高效性和稳定性。
- 王平辜希武赵慧慧
- 关键词:异构网络MAPREDUCE