教育部人文社会科学重点研究基地度重大研究项目(10JJD630014)
- 作品数:13 被引量:224H指数:9
- 相关作者:陆伟程齐凯张晓娟黄永桂思思更多>>
- 相关机构:武汉大学西南大学更多>>
- 发文基金:教育部人文社会科学重点研究基地度重大研究项目国家自然科学基金更多>>
- 相关领域:文化科学自动化与计算机技术经济管理更多>>
- 查询意图研究综述被引量:27
- 2013年
- 近年来,学界对查询意图进行了广泛探讨,一些重要国际会议如SIGIR,WWW等越来越重视查询意图的相关研究,其研究点主要集中在给定分类体系下的查询意图识别,内容涉及查询意图类目体系构建、特征识别、分类方法以及数据集与评价方法。研究发现当前查询意图研究面临如下问题和挑战:缺乏权威的评测标准,各种分类方法在大规模查询集合上的性能还不确定,有效提取或者获得查询特征的方法仍然值得深入研究,查询意图分类体系的完备性和类别间独立不相关性尚不确定。
- 陆伟周红霞张晓娟
- 关键词:查询意图查询分类
- 融合主题模型及多时间节点函数的用户兴趣预测研究被引量:2
- 2015年
- 【目的】针对用户兴趣随时间推移不断变化的问题,利用主题模型及时间节点函数预测用户兴趣。【方法】使用主题模型生成用户兴趣,针对用户的所有兴趣,分别利用多时间节点函数对每个兴趣的每次出现进行加权,用以预测用户兴趣在下一个时间节点的分布情况。【结果】在Sogou搜索日志上,与基于记忆的用户兴趣模型、基于遗忘曲线的用户兴趣度多阶段量化模型进行对比实验,余弦相似度及KL(Kullback-Leibler)距离均表明本文方法能较准确地预测用户兴趣。【局限】仅在Sogou搜索日志上进行实验测试,还需在其他数据集上进一步检验。【结论】充分考虑用户历史数据中每一个时间点可更准确地对用户兴趣进行预测。
- 桂思思陆伟黄诗豪周鹏程
- 关键词:主题模型时间函数
- 学术文本的结构功能识别——功能框架及基于章节标题的识别被引量:52
- 2014年
- 当前学术文本挖掘研究大多数是采用基于词汇、窗口、全文的方法,往往忽略了学术文本的内在结构,导致了很多歧义性问题。本文针对当前研究不足,提出一种研究性论文的结构功能框架,对学术文本的章节功能和逻辑结构进行了定义。在此基础上本文从三个不同层次(基于章节标题、基于章节内容和标题、基于段落)论述了结构功能的自动分类问题,并从第一个层次(基于章节标题)采用词表与序列标注相结合的方法进行了结构功能的自动分类实验,取得了令人满意的效果。
- 陆伟黄永程齐凯
- 关键词:文本挖掘
- 学术文本的结构功能识别——基于段落的识别被引量:37
- 2016年
- 学术文本的结构功能识别是学术文本章节层次的文本分类问题,其本质就是识别章节的结构功能。本文将基于段落的学术文本结构功能识别分为两个子问题:段落位置识别及基于段落投票的章节结构功能识别。在自动构建的大规模数据集上的实验结果表明,虽然基于段落的结构功能识别效果不如基于章节整体内容的识别,但仍然取得了不错的效果。本文结合实验结果着重分析了影响基于段落的识别效果的两个重要因素:段落长度及章节中段落数量,并在最后对学术文本结构功能识别的三个层次做了总结,指出了拟进一步探讨的问题和方向。
- 黄永陆伟程齐凯桂思思
- 关键词:文本分类文本挖掘
- 基于社会网络的学科主题聚类研究被引量:12
- 2012年
- 将社会网络分析的方法运用到学科主题聚类中,对从CNKI上采集的发文数据构建关键词共词网络,再用Blondel社区发现算法进行关键词聚类分析,接着用Z-value对划分的社区进行核心圈分析。最后,笔者选取三个适当的例子对聚类算法和核心圈的结果进行评价,得到:Blondel社区发现算法虽然存在一些缺陷,但在数量和质量上都效果不错;Z-value确定社区核心圈效果很好,核心节点能很好地表征社区内容。在此基础上,笔者得出了图书情报学领域的主题聚类结果。
- 朱梦娴程齐凯陆伟
- 关键词:社会网络Z-VALUE
- 学术文本的结构功能识别——基于章节内容的识别被引量:39
- 2016年
- 学术文本的结构功能是对学术文本结构及章节功能的阐述和概括,主要分为引言、相关研究、方法、实验、结论五种。根据研究对象的不同,结构功能识别的方法可分为基于章节标题的识别、基于章节内容的识别和基于段落的识别三个层次。然而,基于章节标题的结构功能识别法存在较多的局限性,如数据集构建困难、含未登录词的标题的识别率较低等。因此本文以章节内容为研究对象,探讨学术文本结构功能识别的第二个层次,并将基于章节内容的结构功能识别问题转化为文本分类问题,在特征选择上,除了传统的词汇特征,还引入词汇的聚类特征,并使用支持向量机作为分类器在基于自然标注的实验数据集上进行了实证研究。实验结果表明相比较于只使用词汇特征,本文所提方法的识别效果有明显提升。
- 黄永陆伟程齐凯
- 关键词:文本分类词汇特征
- 用户查询中潜在时间意图分析及其检索建模被引量:7
- 2011年
- 基于Sogou实验室提供的查询日志数据和新闻数据,探讨潜在时间意图查询的判断及其相关时间属性识别,构建潜在时间意图查询的检索排序模型。实验结果表明,时间属性识别的准确率为85%,且构建的检索模型能有效提高排序效果。
- 张晓娟陆伟周红霞
- PLSA在图情领域专家专长识别中的应用被引量:9
- 2012年
- 基于图情领域权威期刊论文数据集,利用概率潜在语义分析(PLSA)算法对表征专家专长的文档进行处理,以此来定位图情领域专家的研究领域。实验结果表明,该方法具有可行性并取得较好的实验结果。
- 张晓娟陆伟程齐凯
- 关键词:PLSA
- 面向引用关系的引文内容标注框架研究被引量:71
- 2014年
- 引文内容分析能够帮助揭示文献引用关系的深层语义内涵。本文梳理了目前已有的引文内容标注体系,归纳出构建引文分类体系的三个主要维度,即引文功能,引文重要性,情感倾向。以支持文献引用关系分析为目标,针对引文内容分析设计出一个引文内容标注框架,其中包括揭示引文关系抽象性质的引文分类标注体系,描述被引文献具体内容的引用对象标注体系,以及记录引文客观特征的引文属性标注体系。具体的标注实验体现了该标注框架的可用性。
- 陆伟孟睿刘兴帮
- 检索结果多样化研究综述被引量:4
- 2015年
- 随着网络信息的日渐丰富,用户的信息需求也越来越多样化,其在进行检索时,输入的查询词往往较短,且含有歧义。因此,如何识别用户查询意图,满足多样化需求,成为当前信息检索领域的研究热点问题之一。本文在对用户检索多样化需求进行分析的基础上,探讨了检索多样化的定义,并进而对检索结果多样化研究的方法和评价指标做了介绍。
- 冯晓华陆伟张晓娟
- 关键词:信息检索用户需求