北京市哲学社会科学规划项目(13SHC031)
- 作品数:6 被引量:12H指数:2
- 相关作者:张梅段建勇刘云峰胡熠程利伟更多>>
- 相关机构:北方工业大学更多>>
- 发文基金:北京市哲学社会科学规划项目国家自然科学基金国家社会科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 维基百科中查询分类知识挖掘方法研究被引量:1
- 2014年
- 查询分类需要建立查询意图的分类知识体系,每个查询类别中的分类知识规模相对比较大,因而不能保证每一个查询类别都能被覆盖.提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图.该方法借助维基百科能够解决数据稀疏问题.通过随机游走方式对未直接关联的查询进行相似度计算,提高查询分类的覆盖率.实验证实,该方法能够有效定位用户的查询领域.
- 段建勇窦光辉张梅谢宇超
- 关键词:随机游走查询分类维基百科信息抽取
- 网络舆情分析中共性知识挖掘方法研究被引量:4
- 2013年
- 共性知识挖掘是网络舆情中实现领域可移植的有效途径,提出从共性情感元素、共性语言模式两方面建立共性舆情知识库。共性情感元素挖掘主要通过半自动方法识别并从训练库中学习量化权值实现动态扩展知识库;共性语言模式挖掘主要从语法、语义角度弥补句法分析引入的错误,提出三类修正模型,包括主语转移模型、极端情感动词模型与情感修饰短距离依赖模型。最后从宗教、酒店两个领域进行验证,证实共性知识挖掘在系统可移植性方面具有一定效果。
- 段建勇程利伟张梅高振安
- 关键词:舆情分析情感元素语言结构
- 面向网络评论的文本信息抽取方法研究被引量:1
- 2015年
- 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.
- 段建勇高会娟张梅
- 关键词:信息抽取
- 搜索引擎的一种在线中文查询纠错方法被引量:2
- 2016年
- 该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。
- 胡熠刘云峰杨海松张小鹏段建勇张梅乔建秀
- 网页搜索中查询时效性的实时计算模型被引量:2
- 2016年
- 网页搜索中的查询时效性是指查询对新闻网页的需求。这种时间相关的因素,在网页排序过程中用于平衡其他非时间性因素,使排序更好地满足用户体验。为此该文提出了一种查询时效性的实时计算模型:从用户搜索和媒体报道两个角度,分别对时效性建模,然后这两种不同来源的时效性相互补充,综合计算某个时刻用户搜索某个查询时,其综合时效性得分。这个量化得分在网页排序阶段用于提高或抑制新闻网页的露出;同时也为网页搜索结果中展现新闻直达区提供依据。在人工评测以及用户点击通过率统计上,该模型均取得了不错的实际效果。
- 胡熠刘云峰段建勇熊展志乔建秀张梅
- 维基百科中翻译对的模板挖掘方法研究被引量:2
- 2015年
- 双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维基百科中自动获取高质量中英文翻译对的模板挖掘方法,不但能有效地挖掘出常见的模板,而且能够发现人工不容易察觉的复杂模板。主要方法包括三步:1)从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识;2)在维基百科页面中采用PAT-Array结构挖掘中英翻译对模板;3)利用挖掘的模板在页面中自动挖掘其他中英文翻译对,并进行模板评估。实验结果表明,模板发现翻译对的正确率达90.4%。
- 段建勇闫启伟张梅胡熠
- 关键词:维基百科信息抽取