国家重点基础研究发展计划(G1999032706)
- 作品数:28 被引量:620H指数:15
- 相关作者:李晓明王继民单松巍冯是聪彭波更多>>
- 相关机构:北京大学中国科学院新加坡国立大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 国内综合性搜索引擎时新性的计算被引量:8
- 2003年
- 一个搜索引擎所索引Web页面的“新鲜性”已成为评价其系统性能的指标之一。该文利用北大天网的实际搜集和Cho所检测Web变化的实验数据,计算了国内综合性搜索引擎在定期全面搜集时的时新性。
- 王继民
- 关键词:搜索引擎时新性WEB页面
- 搜索引擎倒排文件的一种分块组织技术被引量:15
- 2005年
- 检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 .
- 彭波李晓明
- 关键词:搜索引擎信息检索倒排文件
- 海量Web搜索引擎系统中用户行为的分布特征及其启示被引量:77
- 2001年
- 统计分析了大规模搜索引擎系统的用户行为的分布特征 .结果表明 ,用户查询内容和URL点击表现出明显的局部性 ;用户查询的分布符合幂函数的特征并具有良好的自相似性 .基于上述规律 ,设计了查询cache ,比较了FIFO ,LRU及带衰减的LFU等 3种cache替换策略 .然后 ,基于用户行为考察了海量网页信息的分布特征 ,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析 ,阐明了其对优化搜索引擎系统定序算法 (rankingalgorithm)的启示 .
- 王建勇单松巍雷鸣谢正茂李晓明
- 关键词:万维网搜索引擎系统WEB网页用户行为用户查询
- 面向特定领域人机对话模型研究与实现被引量:6
- 2004年
- 通用的自然语言的理解技术当前并不是很成熟,但在面向特定领域的自然语言理解还是可能的。论文从特定领域自然语言的特点以及机器理解技术出发,给出一种适用于特定领域的自然语言理解技术。这种自然语言理解技术结合语音识别和语音合成技术,可以达到比较理想的人机对话效果。论文给出的这种处理模型可以在更多的人机交互场合中得到应用。
- 陈华韩近强邓海清李晓明
- 关键词:自然语言理解人机对话
- 关于国内可公开访问网页数量的一种估计
- 2003年
- 可公开访问网页是由Web上的静态网页和无需额外输入即可访问的动态网页两部分组成。基于CNNIC关于网络信息数量资源的调查报告与北大天网实际搜集所获得的数据,根据Web发展变化的数学模型,该文对过去和未来国内可公开访问网页的数量进行了一种估计。
- 王继民
- 第三代搜索引擎与天网二期被引量:30
- 2001年
- 论述了三代搜索引擎的发展 ,着重介绍了第三代搜索引擎的体系结构 ,详细讨论了该搜索引擎的几个核心技术———大规模搜集技术、超链分析技术和用户行为分析技术。介绍了作者参与研发的第三代搜索引擎———“天网”的研究进展 。
- 雷鸣王建勇赵江华单松巍陈葆珏
- 关键词:WWW搜索引擎信息检索超链分析用户行为分析
- 并发面向对象中的继承反常现象被引量:3
- 2002年
- 如果不考虑继承性,并发性与对象技术的结合是很自然的.继承反常(又称继承异常)现象是继承性和并发性不相容的主要原因之一.现阶段人们对继承反常现象的认识有许多模糊之处,出发点不尽相同,形式化的工作也很少.对不同的subtyping关系考虑其特有的渐增式继承方法有利于把握继承反常现象的实质,也丰富了在并发面向对象语言中应将inheritance层次和subtyping层次区别对待这一认识的内涵.在阐述基本观点之后,采用范畴论的术语对相关的概念和定义做了形式化工作.一些观点和结论适用于区分和解释相关工作的出发点和贡献,并对并发面向对象技术中继承性的建模问题有所启示.
- 王生原杨良怀袁崇义杨萍
- 关键词:并发面向对象范畴论程序设计
- 几种典型特征选取方法在中文网页分类上的效果比较被引量:112
- 2003年
- 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
- 单松巍冯是聪李晓明
- 关键词:中文网页分类特征选取评测
- 互联网上主题信息的一种收集与处理模型及其应用被引量:27
- 2003年
- 互联网上的信息是社会状况的一种反映 ,可以被人们从多种不同的角度来关心 而有了计算机作为工具 ,这种“关心”的深度和广度就能够大大地拓展 提出一种模型 ,基于它实现的一套程序和过程能够针对人们关心的热点主题 ,系统地对网上的信息进行收集和分析 ,从不同的角度和层次得出互联网对该主题报道的强度 ,对社会科学类研究具有一定的参考价值 利用这个模型 (和相应的系统 ) ,以 2 0 0 2年 11月 8日为中心 ,以“十六大”为主题 ,前后分别扩展半个月 ,对中国互联网上的信息进行了跟踪研究 ,得出了在这些天里和“十六大”相关信息占总信息量的 7 3% ;从 2 0 0 2年 11月2日开始 ,“十六大”相关信息量逐日递增 ,在 2 0 0 2年 11月 2
- 李晓明朱家稷闫宏飞
- 基于Web挖掘的个性化技术研究被引量:61
- 2004年
- 针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
- 冯是聪单松巍张志刚龚笔宏李晓明
- 关键词:WEB挖掘个性化服务用户建模代理人工智能