您的位置: 专家智库 > >

国家教育部博士点基金(20030001076)

作品数:12 被引量:156H指数:8
相关作者:彭波王继民闫宏飞孟涛陈翀更多>>
相关机构:北京大学中国科学院更多>>
发文基金:国家教育部博士点基金国家自然科学基金中国博士后科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 12篇期刊文章
  • 1篇会议论文

领域

  • 13篇自动化与计算...

主题

  • 8篇引擎
  • 8篇搜索
  • 8篇搜索引擎
  • 8篇索引
  • 7篇信息检索
  • 4篇用户
  • 2篇用户日志
  • 2篇日志
  • 2篇搜索引擎检索
  • 2篇搜索引擎日志
  • 2篇查询
  • 1篇倒排索引
  • 1篇倒排文件
  • 1篇多任务
  • 1篇用户反馈
  • 1篇用户行为
  • 1篇增量式
  • 1篇索引技术
  • 1篇天网
  • 1篇排序

机构

  • 13篇北京大学
  • 1篇中国科学院

作者

  • 9篇彭波
  • 6篇王继民
  • 4篇闫宏飞
  • 4篇孟涛
  • 2篇陈翀
  • 2篇龚笔宏
  • 1篇刘晓莉
  • 1篇李晓明

传媒

  • 5篇清华大学学报...
  • 1篇计算机研究与...
  • 1篇电子学报
  • 1篇计算机工程与...
  • 1篇计算机工程
  • 1篇情报学报
  • 1篇计算机工程与...
  • 1篇北京邮电大学...

年份

  • 3篇2006
  • 9篇2005
  • 1篇2004
12 条 记 录,以下是 1-10
排序方式:
基于搜索引擎日志发现相近Web查询被引量:4
2005年
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.
王继民彭波孟涛
关键词:搜索引擎用户日志
基于搜索引擎日志发现相近Web查询
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL...
王继民彭波孟涛
关键词:搜索引擎用户日志
文献传递
大规模搜索引擎检索系统框架与实现要点被引量:24
2006年
随着Web规模的不断扩大,搜索引擎正成为因特网上最常用的应用之一。本文以天网搜索为实例,分析了大规模通用型中文搜索引擎检索系统的设计与实现技术。围绕检索效率和检索效果两个方面,本文介绍天网检索系统的集成框架结构和分布式架构,并分析了索引创建和索引检索中的相关实现技术。
彭波
关键词:搜索引擎信息检索天网
基于概率模型的名人网页相关度评价被引量:5
2005年
天网知名度系统是根据用户预定信息提供个性化检索的信息服务系统。该文提出了一种基于概率模型的名人网页相关度评价模型。改进O kap i BM 25公式,引入HTM L标记权重系数针对不同领域名人特点引入名人属性权重系数。分别采用伪反馈和用户反馈两种方法进行相关反馈,实现对评价模型中权重参数的自动优化。实验表明,该模型有效地提高了系统相关度评价质量,并且发现用户反馈的效果受实体属性信息词数影响,属性信息越丰富反馈后性能提高的概率越大。
刘晓莉彭波
关键词:信息检索相关度评价
一个增量搜集中国W eb的系统模型及其实现被引量:11
2005年
针对中国W eb的高效增量搜集,设计试验考察了网页的短期变化规律,估算出增量搜集需要的最小搜集能力。提出一个通用的增量式搜集系统模型和它的性能准则,该模型阐明了增量搜集的运行原理。针对该模型,结合北大天网增量搜集系统的开发经验,讨论了它的性能瓶颈并给出解决方案。对增量搜集的两类目标——变化网页和新网页,探讨了相应的搜集策略。介绍了该模型的实现和性能状况。该文的工作为增量搜集系统的设计和实现提供了一个成功的模型。
孟涛闫宏飞王继民
关键词:增量式系统模型
搜索引擎倒排文件的一种分块组织技术被引量:15
2005年
检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 .
彭波李晓明
关键词:搜索引擎信息检索倒排文件
搜索引擎检索系统质量评估被引量:10
2005年
搜索引擎检索系统的质量评估对传统信息检索系统评估带来了新的研究问题·利用Tiangwang搜索引擎查询日志,按类别构造评估查询集,用人工判别相关性的方法对3个搜索引擎进行了检索质量评估·实验用InfoMall系统提供的历史网页服务消除不同搜索引擎搜集系统收集网页集合的差异,得到如下结论:①评测员之间的差异很大,但评估实验结果保持稳定;②使用连续型的相关度评分以及对应的评估指标比二元相关度评分及指标具有更好的区分能力;③使用50左右规模的查询集合和DCG这样的连续型评估指标可以有效进行评估实验·
彭波闫宏飞
关键词:搜索引擎信息检索
一种词汇共现算法及共现词对检索系统排序的影响被引量:15
2005年
为了探讨共现词对检索系统排序相关性的影响,提出一种新的共现词汇算法——FDC。算法中考虑了词汇在文档中的共现频度、相对距离和共文档率。从天网搜索引擎查询日志中选取部分查询词,用本算法和潜在语义索引(LS I)方法分别求其共现词汇,并以相同的评分策略改变原始排序结果。D iscoun ted cum u lative ga in(DCG)评估结果表明,本算法获得的共现词在99%的置信度下对原始排序的相关性有改进;而LS I方法获得的共现词对排序相关性也表现出同样显著的改进效果。结果显示共现词汇能改进检索系统结果排序的相关性,并且不依赖于特定算法。
陈翀彭波闫宏飞王继民
关键词:排序信息检索
搜索引擎的混合索引技术被引量:12
2004年
倒排文件是搜索引擎检索系统普遍采用的索引技术。针对中文搜索引擎中采用自动分词的全文检索因分词词典规模小导致的检索效率下降与词典规模扩大导致检索效果下降的矛盾,论文在天网搜索引擎的实践基础上,提出了一种基于倒排文件实现的混合索引的方法,它可以有效提高搜索引擎下短语查询的检索效率,同时不影响系统检索效果。
彭波
关键词:搜索引擎信息检索倒排索引
SCC——利用分类技术改进的短摘要比较方法被引量:1
2005年
搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进摘要比较。将两个摘要分别与参照物进行比较,在较大的一个文档集合中找到与摘要相近的文档集合。用这些文档集合扩充短摘要的含义,以替代短摘要来衡量摘要相似度。实验结果表明,使用改进后的摘要比较算法,相关集合的DCG指标有了明显改进。
龚笔宏
关键词:信息检索用户反馈
共2页<12>
聚类工具0