国家高技术研究发展计划(2008AA01A307) 作品数:3 被引量:23 H指数:1 相关作者: 王劲林 白鹤 赵志强 汤迪斌 更多>> 相关机构: 中国科学院 中国科学院研究生院 更多>> 发文基金: 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 更多>>
在线旅游业务中Web页面主体块提取方法研究 2010年 Web信息提取是在线旅游业务的重要技术。页面的主体语义块集中了最主要的信息量,它的正确提取是Web信息提取的基础。本文在对现有页面分割方案总结的基础上,提出了结合机器学习方法的Web页面主体语义块节点识别算法,并基于启发式规则对正结果集进行后续的校验,以定位最佳的主体语义块节点。通过实验,本文提出的方案达到了比较理想的准确率。 白鹤 赵志强 王劲林关键词:WEB信息提取 支持向量机 面向旅游领域的Deep Web接口查询研究 被引量:1 2010年 Deep Web蕴涵丰富的分类信息,是融合型在线旅游业务良好的数据源。本文对Deep Web接口模式进行分析,提出了接口集成方案的流程和领域实例库的建模方法,并就"酒店查询"业务进行了对方案的评估。测试结果显示,在对接口页面一定积累的基础上,可以达到较高的模式匹配准确率,从而保证了Deep Web接口的正确的自动查询。 白鹤 赵志强 王劲林关键词:DEEP WEB 分布式多主题网络爬虫系统的研究与实现 被引量:22 2009年 提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。 白鹤 汤迪斌 王劲林关键词:网络爬虫 多主题 分布式