国家自然科学基金(61103112)
- 作品数:15 被引量:42H指数:3
- 相关作者:段建勇张梅谢宇超徐骥超刘云峰更多>>
- 相关机构:北方工业大学更多>>
- 发文基金:国家自然科学基金国家社会科学基金北京市哲学社会科学规划项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 概念与属性间语义约束知识的获取方法研究被引量:2
- 2012年
- 语义表示是语义计算的基石,本文提出运用属性来表征概念语义,并采用机器学习的方法来量化基于属性知识粒度的概念语义表示方法。首先从"知网"中抽取自由属性知识的种子词汇,然后采用模板的方法来扩展属性知识库;在已有自由属性知识库的基础上训练概念与属性知识的约束知识,并量化两者间的约束关系。最后对该方法进行了实现。
- 张梅段建勇
- 关键词:概念语义语义表示
- 基于统计和特征相结合的查询纠错方法研究被引量:3
- 2016年
- 【目的】提高搜索引擎查询纠错过程中的准确率和召回率,改善用户的检索体验。【方法】提出一种基于统计和特征相结合的查询纠错模型,建立混淆集生成模型,将用户输入的查询关键字生成其对应的混淆集;建立混淆集排序模型,对混淆集中的词条进行排序,选出混淆集中最佳的词条与用户输入的查询关键字对照,以此达到查错纠错的目的。【结果】实验结果证明该模型在搜索引擎查询时具有较好的效果,测试集在110k时的准确率和召回率分别达到92.2%和95%,相对于N-gram纠错模型准确率和召回率分别提高13.6%和8.3%。【局限】该模型中混淆集的生成规则有限、模型的训练需要大量的计算。【结论】本模型能够提高搜索引擎查询的准确率及效率,改善用户的检索体验。
- 段建勇关晓龙
- 关键词:N-GRAM模型
- 面向网络评论的文本信息抽取方法研究被引量:1
- 2015年
- 为对网络在线评论进行高效率的文本分析与提取,本文提出一种基于HtmlParser的文本抽取解析算法.首先通过语言与格式规则进行标签筛选,实现基于HtmlParser的网页文本数据抽取算法,然后采用Regex模式对抽取文本进行清洗去噪.最后通过实验,结合正确率与召回率等指标验证了算法的有效性.
- 段建勇高会娟张梅
- 关键词:信息抽取
- 维基百科中翻译对的模板挖掘方法研究被引量:2
- 2015年
- 双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维基百科中自动获取高质量中英文翻译对的模板挖掘方法,不但能有效地挖掘出常见的模板,而且能够发现人工不容易察觉的复杂模板。主要方法包括三步:1)从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识;2)在维基百科页面中采用PAT-Array结构挖掘中英翻译对模板;3)利用挖掘的模板在页面中自动挖掘其他中英文翻译对,并进行模板评估。实验结果表明,模板发现翻译对的正确率达90.4%。
- 段建勇闫启伟张梅胡熠
- 关键词:维基百科信息抽取
- 维基百科中查询分类知识挖掘方法研究被引量:1
- 2014年
- 查询分类需要建立查询意图的分类知识体系,每个查询类别中的分类知识规模相对比较大,因而不能保证每一个查询类别都能被覆盖.提出基于随机游走方式的查询分类知识挖掘方法,首先抽取维基百科中的全部词条与分类知识形成集合,并采用随机游走方式遍历图中所有概念结点,得到每个结点的概率分布,并将其转化成分类权重,最终构建查询知识链接图.该方法借助维基百科能够解决数据稀疏问题.通过随机游走方式对未直接关联的查询进行相似度计算,提高查询分类的覆盖率.实验证实,该方法能够有效定位用户的查询领域.
- 段建勇窦光辉张梅谢宇超
- 关键词:随机游走查询分类维基百科信息抽取
- IBATIS框架下文本抽取系统的研究
- 2015年
- 由于网络的快速发展,网络信息骤然增加,增大了文本的抽取难度。针对这种情况,提出IBATIS框架下基于HtmlParser技术的文本抽取模式,将HtmlParser高效的过滤器和访问者模式与实现业务逻辑、数据访问、页面展示相分离的IBATIS框架相融合,充分利用优势互补,用以对网络中的海量数据进行高效率的分析与提取。
- 段建勇高会娟
- 关键词:HTMLPARSER信息抽取IBATIS
- 基于本体的分类知识管理方法研究被引量:1
- 2011年
- 目前的知识组织形式多是通过知识分类的方式来实现的,但是对于分类知识如何管理却没有很好的方法。本文提出的基于本体的分类知识管理方法,通过本体来表示分类知识,使得分类知识之间的关系以及知识的属性能够完整的表示出来。同时将本体的表示的分类知识利用OWL文档进行存储,实现了分类知识的快速检索利用和编辑修改。
- 马砚忠刘高军段建勇
- 关键词:本体
- 网络舆情分析中共性知识挖掘方法研究被引量:4
- 2013年
- 共性知识挖掘是网络舆情中实现领域可移植的有效途径,提出从共性情感元素、共性语言模式两方面建立共性舆情知识库。共性情感元素挖掘主要通过半自动方法识别并从训练库中学习量化权值实现动态扩展知识库;共性语言模式挖掘主要从语法、语义角度弥补句法分析引入的错误,提出三类修正模型,包括主语转移模型、极端情感动词模型与情感修饰短距离依赖模型。最后从宗教、酒店两个领域进行验证,证实共性知识挖掘在系统可移植性方面具有一定效果。
- 段建勇程利伟张梅高振安
- 关键词:舆情分析情感元素语言结构
- 搜索引擎的一种在线中文查询纠错方法被引量:2
- 2016年
- 该文主要解决中文搜索引擎的查询纠错问题。错误的查询,已经偏离用户真实的搜索意图时,搜索质量很差,甚至导致搜索结果数为零。为此该文提出了一种服务于实际搜索引擎,较为完整的查询纠错方案。该文重点描述了纠错查询候选生成、纠错查询候选评价、以及基于核函数,挑选最优纠错查询候选等内容。通过在开放测试集上的准确率/召回率验证,以及在搜索引擎中实际的DCG评测,该文的方案都取得了较好的效果。
- 胡熠刘云峰杨海松张小鹏段建勇张梅乔建秀
- 网页搜索中查询时效性的实时计算模型被引量:2
- 2016年
- 网页搜索中的查询时效性是指查询对新闻网页的需求。这种时间相关的因素,在网页排序过程中用于平衡其他非时间性因素,使排序更好地满足用户体验。为此该文提出了一种查询时效性的实时计算模型:从用户搜索和媒体报道两个角度,分别对时效性建模,然后这两种不同来源的时效性相互补充,综合计算某个时刻用户搜索某个查询时,其综合时效性得分。这个量化得分在网页排序阶段用于提高或抑制新闻网页的露出;同时也为网页搜索结果中展现新闻直达区提供依据。在人工评测以及用户点击通过率统计上,该模型均取得了不错的实际效果。
- 胡熠刘云峰段建勇熊展志乔建秀张梅