国家自然科学基金(60573166)
- 作品数:5 被引量:13H指数:2
- 相关作者:李晓明王继民孟涛杨宇张铭更多>>
- 相关机构:北京大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 利用支持向量回归确定相关Web查询被引量:1
- 2006年
- 对用户输入的查询请求,如果搜索引擎系统能给出一个相关查询列表,将有助于用户进行查询修正,进而检索到用户所需要的信息.文中提出了一种利用支持向量回归确定相关W eb查询的新方法.对一个给定的W eb查询,首先从用户的使用记录中抽取候选查询的5个量化指标:被查询的次数、被查询的用户量、用户在反馈结果中的点击次数、与给定查询间的共有词项个数和点击相同网址(URL)的个数;然后用手工标记部分训练数据,进而建立支持向量回归模型,根据相关度的大小确定相关W eb查询.实验结果表明该方法具有较高的准确度.
- 王继民彭波孟涛
- 关键词:搜索引擎用户日志支持向量回归
- 基于历史网页的事件报导信息系统设计与分析被引量:4
- 2008年
- Webinfomall是北京大学网络实验室从2001年开始建设的中国网页档案馆。迄今,它已经收藏了自2002年初以来出现在中国互联网上的近30亿网页,而且以每天100~200万网页的速度在不断增加。这些网页不仅来源于不同的URL,而且还包含同一个URL的不同内容版本,其中许多内容目前在中国互联网上已经不复存在。如何在这样一个海量信息系统中开展有效的信息挖掘是我们面对的一个基本问题。本文描述一个实验性系统(HisTrace)框架。该系统旨在支持人们从Webinfomall中尽量准确、完整地提取与重要历史事件相关的网络新闻报道,并按照报道发生的时间顺序将它们不重复地展示出来。由于Webinfomall的海量性,也由于网络信息的复杂性和随意性,这其中有不少挑战。本文对其中的主要环节进行了分析。最后,我们简要介绍了系统的初步实现情况。
- 黄连恩李晓明
- 关键词:网络信息挖掘信息压缩
- 一种提取面向搜索的网上文件资源描述词语的方法
- 2008年
- 网上文件资源的共享与下载是当前网络用户的主要行为之一,而通过某些查询词进行搜索则是用户发现可下载资源的一个基本手段.该文提出了一种提取与筛选网上文件资源描述词语的方法,旨在为每一个文件资源找出一个关键词集合,使其尽可能地符合用户查询词集合.
- 郭化楠雷凯李晓明
- 关键词:信息提取元数据提取
- 基于“链接”层次分类的主题爬取
- 1引言Web信息分布的局部专题化是互联网信息所呈现的特征之一。因此如何利用有限的带宽及存储容量,迅速而准确地爬取主题网页就成了近年来搜索引擎网页爬取所关心的问题。
- 周毅江云亮张铭熊宇红冯是聪
- 关键词:URL
- 文献传递
- 基于多种规则的课程元数据自动抽取被引量:7
- 2008年
- 在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。
- 杨宇张铭周宝曜
- 关键词:元数据抽取正则表达式
- 基于DOM树的半指导科技文献元数据自动抽取
- 1引言互联网已经成为教育科研领域的信息重要来源,在线科技资源非常丰富。互联网上有大量的科技文献数据库,如ACM、Springerlink、DBLP、CS.BIB、SCI、Citeseer、Google scholar等。...
- 封盛张铭
- 文献传递
- 中文Web查询演化的主要趋势被引量:1
- 2007年
- 为发现中文Web用户查询行为的演化趋势,本文对近5年的中文天网搜索引擎的用户日志进行了抽样分析.结果显示:用户输入的查询串中所包含词项数量有明显增多的趋势;用户会话的长度逐年下降;用户查看的结果页面越来越少;查看的时间间隔逐渐缩短;查询串中所包含的汉字个数基本稳定,其中包含2~4个汉字的查询串居多;在查询结果中发生点击行为的比率呈递减的趋势;查询次数与点击次数的相关性逐渐减弱;Web用户查询的主题变化较快.
- 王继民孟涛
- 关键词:搜索引擎用户日志