您的位置: 专家智库 > >

何靖

作品数:9 被引量:27H指数:3
供职机构:北京大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家重点实验室开放基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 5篇期刊文章
  • 2篇会议论文
  • 1篇学位论文
  • 1篇专利

领域

  • 7篇自动化与计算...
  • 1篇文化科学

主题

  • 5篇信息检索
  • 3篇引擎
  • 3篇日志
  • 3篇搜索
  • 3篇搜索引擎
  • 3篇索引
  • 2篇查询
  • 2篇查询意图
  • 1篇点击
  • 1篇信息检索技术
  • 1篇用户
  • 1篇日志分析
  • 1篇数据挖掘
  • 1篇搜索引擎日志
  • 1篇去噪
  • 1篇万维网
  • 1篇网络
  • 1篇网络挖掘
  • 1篇网页
  • 1篇网页去噪

机构

  • 9篇北京大学
  • 3篇北京师范大学

作者

  • 9篇何靖
  • 5篇闫宏飞
  • 2篇毛先领
  • 2篇陈翀
  • 2篇徐谷子
  • 2篇刘晓兵
  • 1篇袁文清
  • 1篇李铄
  • 1篇李峰

传媒

  • 1篇计算机研究与...
  • 1篇华南理工大学...
  • 1篇广西师范大学...
  • 1篇情报学报
  • 1篇山东大学学报...
  • 1篇第四届全国搜...

年份

  • 2篇2012
  • 2篇2011
  • 3篇2010
  • 2篇2006
9 条 记 录,以下是 1-9
排序方式:
一种搜索引擎的查询意图发现的新方法被引量:4
2012年
查询背后的信息需求被定义为查询意图,搜索引擎可以根据不同的查询意图,提供多样性的服务,优化检索效果。查询意图的识别多被看成是一种分类问题,现有的大多数方法都基于查询串文本本身的特征和查询的用户点击数据特征。这两种方法存在如下的困难:对于查询串的文本特征,查询比较短,特征比较稀疏,要进行比较准确的理解会比较困难;对于用户点击特征,由于用户提交查询的长尾性分布,大多数查询的提交次数都是较少的,对于这些查询,要判别它们的意图是比较困难的。为了克服长尾查询上查询意图判断的不可靠问题。本文提出利用查询结果的相关性分数的分布作为特征来判断查询意图的方法。这种方法依赖查询结果的特征,比查询串本身的特征更加丰富;同时不依赖于用户的点击数据,因此可以克服长尾查询上的困难。结果表明,使用结果分数分布,可以提高意图判别的准确程度。
陈翀刘晓兵徐谷子何靖闫宏飞
关键词:查询意图查询分类
基于点击日志分析的搜索引擎质量评价方法
搜索引擎质量评价是一个非常重要的问题。对于使用者,它可以帮助他们选择合适的搜索引擎,找到满足信息需求的信息;对于搜索引擎的研究和开发人员,它能够帮助他们比较各组件算法的好坏,发现系统瓶颈,从而改进服务质量。   传统的...
何靖
关键词:搜索引擎
网页去噪:研究综述被引量:18
2010年
互联网的快速发展已经使得网页数据成为目前各种应用与研究的重要数据源之一.网页数据包含各种内容,如广告、导航条、相关链接、正文等,然而对于不同的研究和应用来说,并非所有内容都是必需的,相反地,不相关的内容反而会影响研究和应用的效果和效率,所以网页去噪是一个基础问题,且是目前热点研究的问题.因此很有必要对网页去噪领域进行总结,以便更好地进行深入研究.首先说明了网页去噪的必要性,并对网页去噪进行了定义和分类,概述了多种网页去噪的方法和框架,然后对评估网页去噪算法所使用的数据集和方法进行了总结,最后讨论了该领域存在的问题和今后的研究方向.
毛先领何靖闫宏飞
关键词:网页去噪数据挖掘网络挖掘信息检索万维网
一种问答式检索系统布尔查询生成方法
2006年
提出了一种基于简单语法分析的问答系统查询生成方法,利用对问题的词性标注,形成初始化布尔查询,根据查询结果文档集对查询迭代调整,最终产生合理的布尔查询.通过TREC2004和TREC2005的QA TRACK数据集上的实验,表明该方法在没有增加很大复杂度(平均迭代2.5次)的情况下大大提高了平均查准率,覆盖率和重复率.
何靖
关键词:信息检索
基于相关性分数分布对查询意图进行分类的方法
本发明涉及网络和信息检索技术领域,公开了一种基于相关性分数分布对查询意图进行分类的方法,包括以下步骤:S1、获取查询的检索结果和网页;S2、根据所述检索结果和网页构建检索结果集;S3、度量所述检索结果集中文档的相关性分数...
闫宏飞刘晓兵徐谷子何靖李铄
文献传递
基于用户浏览时间的点击模型被引量:3
2011年
用户的点击行为会受到用户的浏览行为、周围文档的特征等因素的影响,故在分析用户点击日志时不能直接将用户点击解释为文档相关性.为了更加准确地获得文档的相关性特征,文中提出了基于用户浏览时间的点击模型.假设文档原文的相关性会影响用户浏览该文档原文的时间,即文档越相关用户浏览文档的耗时越长,这样便可利用用户浏览文档的时间来推测文档的相关程度;经过分析,确定使用指数分布来描述浏览时间;最后通过实验验证了该模型的有效性.结果表明,所提出的模型能够比较好地估计文档的相关性,更加准确地预测用户的点击情况,其性能优于现有的点击模型.
何靖袁文清闫宏飞
关键词:搜索引擎日志
文献检索与基于影响的摘要系统设计与实现被引量:1
2010年
构建了一种新型文献检索系统,能够摘要一篇文献中引起读者研究工作关注的那些内容,并返回读者对这些内容的评论,从而帮助用户快速了解该文献的学术价值及不足之处等重要信息。利用文献间的引用关系从其他文献中找到指向一篇文献的评论上下文,借鉴查询-检索模式,将评论转化为一元语言模型所生成的查询,并将原文献划分为句子所构成的文档集,基于KL-divergence检索模型找到原文献中与评论对应的句子。选取得分最高的若干句子构成体现原文献对外影响的摘要。系统基于北京大学研制的智能搜索引擎平台Platform for Applying,Researching And Developing Intelligent Search Engine(PARADISE),具有快速构建可扩展好的优点。
陈羽中李峰毛先领何靖闫宏飞
开放域问答系统研究综述
尽管搜索引擎能够满足网络用户的很多信息需求,但是还有很多它无法满足。原因之一是它严格的用户界面:它的输入是关键词,它的输出是相关文档集。对于很多信息需求,更加合适的提问和回答方式是自然语言。开放域问答系统就是用于解决这一...
何靖陈翀闫宏飞
关键词:信息检索答案抽取
文献传递
一种问答式检索系统布尔查询生成方法
提出了一种基于简单语法分析的问答系统查询生成方法,利用对问题的词性标注,形成初始化布尔查询,根据查询结果文档集对查询迭代调整,最终产生合理的布尔查询.通过TREC2004和TREC2005的QA TRACK数据集上的实验...
何靖
关键词:信息检索
文献传递
共1页<1>
聚类工具0