国家自然科学基金(60173008)
- 作品数:2 被引量:252H指数:2
- 相关作者:林玲周立柱李江波陈祖舜周强更多>>
- 相关机构:清华大学更多>>
- 发文基金:国家自然科学基金欧盟第六框架计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 聚焦爬虫技术研究综述被引量:221
- 2005年
- 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。
- 周立柱林玲
- 关键词:聚焦爬虫链接分析文本检索数据抽取本体描述元搜索
- 汉语部分分析研究
- 本文概要介绍了近年来我们在汉语部分分析方面的研究工作,包括设计部分分析和标注体系构建大规模的部分信息标注语料库、探索不同层次的部分分析方法等,并提出了一些应用设想。
- 周强
- 关键词:语料库标注
- 文献传递
- 汉语词典的快速查询算法研究被引量:31
- 2006年
- 汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TR IE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TR IE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。
- 李江波周强陈祖舜
- 关键词:中文信息处理
- 情境描述的构建方法研究
- 情境描述是基于情境的词汇语义学的核心和基础。本文首先介绍了我们构建情境描述的基本准则,然后通过“符合”情境的构思过程提出了情境提炼的基本方法,最后介绍了我们设计的情境开发支撑平台的主要内容。在情境开发平台支持下,通过充分...
- 周强陈祖舜梅立军
- 关键词:情境词汇语义学知识获取
- 文献传递