国家社会科学基金(11CTQ036)
- 作品数:13 被引量:40H指数:3
- 相关作者:段建勇张梅徐骥超谢宇超刘云峰更多>>
- 相关机构:北方工业大学更多>>
- 发文基金:国家社会科学基金国家自然科学基金教育部人文社会科学研究基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 概念与属性间语义约束知识的获取方法研究被引量:2
- 2012年
- 语义表示是语义计算的基石,本文提出运用属性来表征概念语义,并采用机器学习的方法来量化基于属性知识粒度的概念语义表示方法。首先从"知网"中抽取自由属性知识的种子词汇,然后采用模板的方法来扩展属性知识库;在已有自由属性知识库的基础上训练概念与属性知识的约束知识,并量化两者间的约束关系。最后对该方法进行了实现。
- 张梅段建勇
- 关键词:概念语义语义表示
- 搜索引擎的一种在线中文查询纠错方法被引量:2
- 2016年
- 该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。
- 胡熠刘云峰杨海松张小鹏段建勇张梅乔建秀
- 网页搜索中查询时效性的实时计算模型被引量:2
- 2016年
- 网页搜索中的查询时效性是指查询对新闻网页的需求。这种时间相关的因素,在网页排序过程中用于平衡其他非时间性因素,使排序更好地满足用户体验。为此该文提出了一种查询时效性的实时计算模型:从用户搜索和媒体报道两个角度,分别对时效性建模,然后这两种不同来源的时效性相互补充,综合计算某个时刻用户搜索某个查询时,其综合时效性得分。这个量化得分在网页排序阶段用于提高或抑制新闻网页的露出;同时也为网页搜索结果中展现新闻直达区提供依据。在人工评测以及用户点击通过率统计上,该模型均取得了不错的实际效果。
- 胡熠刘云峰段建勇熊展志乔建秀张梅
- 基于常用问题集的问答系统设计与实现被引量:4
- 2011年
- 针对图书出版领域的常用问题集研制自动问答系统,重点解决问句索引与检索问题。在问句索引中提出结合分词与词性标注、浅层语义分析等方法来索引问句;在问句检索中提出基于特征向量空间和语义类的方法来计算问句相似度。最后对该系统进行实现。
- 张梅段建勇
- 关键词:问答系统
- 基于网络日志的知识地图构建与应用被引量:3
- 2012年
- 通过分析网络日志获得查询聚类和会话单元数据集,在此基础上提出知识地图构造算法,对学习到的知识进行存储与管理,构建基于网络日志的知识地图,利用知识地图中的查询知识可以进行知识的筛选,将查询知识展示在用户面前,使用户快速地获得需要的查询知识。
- 张梅段建勇徐骥超
- 关键词:知识地图网络日志随机游走
- 维基百科中查询分类知识挖掘方法研究被引量:1
- 2014年
- 查询分类需要建立查询意图的分类知识体系,每个查询类别中的分类知识规模相对比较大,因而不能保证每一个查询类别都能被覆盖.提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图.该方法借助维基百科能够解决数据稀疏问题.通过随机游走方式对未直接关联的查询进行相似度计算,提高查询分类的覆盖率.实验证实,该方法能够有效定位用户的查询领域.
- 段建勇窦光辉张梅谢宇超
- 关键词:随机游走查询分类维基百科信息抽取
- IBATIS框架下文本抽取系统的研究
- 2015年
- 由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,充分利用优势互补,用以对网络中的海量数据进行高效率的分析与提取。
- 段建勇高会娟
- 关键词:HTMLPARSER信息抽取IBATIS
- 基于本体的分类知识管理方法研究被引量:1
- 2011年
- 目前的知识组织形式多是通过知识分类的方式来实现的,但是对于分类知识如何管理却没有很好的方法。本文提出的基于本体的分类知识管理方法,通过本体来表示分类知识,使得分类知识之间的关系以及知识的属性能够完整的表示出来。同时将本体的表示的分类知识利用OWL文档进行存储,实现了分类知识的快速检索利用和编辑修改。
- 马砚忠刘高军段建勇
- 关键词:本体
- 人名属性知识挖掘及其在查询分类中的应用被引量:1
- 2013年
- 网络日志中存在大量的命名实体类查询,而其中人名查询占到近半的比例。提出运用网络查询日志和维基百科知识构建人名知识库,并应用于查询分类。通过抽取查询日志中的人名实体,并结合百科知识充实实体属性知识,形成包含属性知识的人名知识库。根据高质量的属性模板和统计分类方法对查询中的人名进行分类,在查询推荐中依据不同人物分类知识库进行分类推荐。实验结果表明该知识库对查询串中的人名实体能进行有效分类。
- 张梅段建勇徐骥超
- 关键词:查询分类信息检索
- 基于网络日志的用户兴趣模型构建被引量:8
- 2013年
- 了解用户查询意图对改善搜索引擎质量起到了至关重要的作用,对具有特定兴趣的用户进行查询分析,使搜索引擎更能了解用户的真实需求。本文通过对网络查询日志进行聚类分析,将相似度大的查询词聚类,建立用户兴趣模型对用户的兴趣进行分析。根据查询词内容重合度,建立查询词图,并结合查询词的PageRank算法,提出一种基于用户查询词概率分布的评价方法,对用户感兴趣的查询词进行评价。最后,根据查询词的概率分布将最感兴趣的查询词推荐给用户。
- 段建勇魏晓亮张梅徐骥超
- 关键词:查询日志个性化推荐