张岭
- 作品数:10 被引量:137H指数:5
- 供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金上海市基础研究重大(重点)项目上海市科学技术委员会基础研究重点项目更多>>
- 相关领域:自动化与计算机技术文化科学理学经济管理更多>>
- 基于标记树对象抽取技术的Hidden Web获取研究被引量:31
- 2002年
- 目前标准的搜索引擎能够检索的仅仅是WorldWideWeb提供的小部分称为可索引的Web信息。大量的HiddenWeb信息(估计容量是可索引Web的500倍)对这些搜索引擎是不可见的。这些信息隐藏在Web页面的搜索表单后面,保存在大型的动态数据库中。该文提出了一套检索HiddenWeb信息的方法,给出了系统的框架结构,并详细讨论了实现的关键技术。系统采用新的基于标记树的对象抽取(Tag-Tree-basedObjectExtraction)方法自动地从Web页面中抽取HiddenWeb信息,然后在此基础上给出了结构化的HiddenWeb信息查询算法。文章最后对实验结果进行了讨论。
- 宋晖张岭叶允明马范援
- 关键词:标记树对象抽取信息检索结构化查询
- 分布式Web Crawler的研究:结构、算法和策略被引量:33
- 2002年
- 本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageRank值作为网页质量评价的标准,从而提高了爬行质量.加快爬行速度的关键是如何解除Crawler系统中的性能瓶颈,本文对此也作了详细的讨论,并提出了一种基于“滞后合并”策略的UBL数据库存取方法.实验表明,Igloo在保持高性能的同时能快速爬行到高质量的网页.
- 叶允明于水马范援宋晖张岭
- 关键词:WEB爬虫分布式系统计算机网络网页
- 一种高性能分布式Web Crawler的设计与实现被引量:12
- 2004年
- 介绍了一种大规模、高性能、分布式的Web信息搜集器的设计及其Java实现.提出了Crawler设计中数据结构、系统功能模块和相关算法新的设计思想;对设计与实现过程中需要解决的关键问题分布式协调机制、基于内存的URL存储管理等进行了讨论,并提供了现阶段的设计、实现方法和分布式无损链接分析算法.
- 张岭叶允明宋晖于水马范援
- 关键词:分布式系统搜索引擎
- 电子商务中基于Web的软件代理应用
- 电子商务正以空前的速度进入人们的生活.人们对于网上交易的便捷性和智能化也提出了新的要求.智能代理技术作为网络商业活动中介的出现,对智能化电子商务起到了很大的推动作用.基于Web的软件代理可以帮助商家或个人进行商品搜寻、价...
- 张岭马范援
- 关键词:电子商务可扩展标记语言网上交易软件代理智能代理
- 文献传递
- 提供个性化服务的搜索引擎页面排序算法被引量:9
- 2003年
- 目前搜索引擎的技术发展迅速,但仍然存在一些问题。当用户输入关键字进行查询时,机器有时无法确知用户真正想要的信息。该文提出了一种对用户进行聚类的分析方法,将关键字和用户的个人偏好结合起来的算法,利用机器学习的方法来推测用户想要看到的信息。将最可能的相关链接排在最前面,以此来提高用户查询的效率。
- 张俊伟张岭马范援
- 关键词:搜索引擎个性化服务
- 电子商务中基于Web的软件代理应用被引量:5
- 2000年
- 电子商务正以空前的速度进入人们的生活。人们对于网上交易的便捷性和智能化也提出了新的要求。智能代理技术作为网络商业活动的中介的出现,对智能化电子商务起到了很大的推动作用。基于Web的软件代理可以帮助商家或个人进行商品搜寻、价格比较和价格协商。本文介绍了商业代理所采用的关键技术、工作方式和应用领域,并介绍了未来基于Web的代理的发展趋势。
- 张岭马范援
- 关键词:电子商务代理技术可扩展标记语言
- 加速评估算法:一种提高Web结构挖掘质量的新方法被引量:47
- 2004年
- 利用Web结构挖掘可以找到Web上的高质量网页 ,它大大地提高了搜索引擎的检索精度 目前的Web结构挖掘算法是通过统计链接到每个页面的超链接的数量和源结点的质量对页面进行评估 ,基于统计链接数目的算法存在一个严重缺陷 :页面评价两极分化 一些传统的高质量页面经常出现在Web检索结果的前面 ,而Web上新加入的高质量页面很难被用户找到 提出了加速评估算法以克服现有Web超链接分析中的不足 。
- 张岭马范援
- 关键词:WEB结构挖掘PAGERANK信息检索搜索引擎
- 分布式信息搜集系统中URL存储检索的设计与分析被引量:5
- 2003年
- URL的存储检索效率是构建大规模分布式信息搜集系统的关键 ,其决定了系统搜集 Web文档的效率 .对 URL存储检索性能做定量分析 ,分别得出 URL存储及检索所需要达到的速度指标 .在此基础上 ,提出了两种 URL存储检索原型 ,即集中 URL服务器存储检索和分布 URL存储检索 ,并对这两种原型系统的检索速度、性能价格比、可扩展性以及可靠性进行了分析比较 .实际应用中 ,可以根据优化目标选择相应的
- 宋晖郑子颖张岭马范援
- 关键词:分布式系统
- Igloo分布式爬虫系统的性能优化
- Web爬虫是搜索引擎和Web信息检索系统的重要基础.本文介绍了一个大型分布式爬虫系统Igloo 1.2版所采用的性能优化措施.它采用分布式的系统结构,通过有效的性能优化方法,如高速通信与优雅爬行的折中、URL Trie快...
- 叶允明马范援于水张岭
- 关键词:WEB爬虫分布式系统搜索引擎数据库存取
- 文献传递
- 智能信息检索中的Web挖掘研究
- 针对目前Web信息检索中存在的各种问题,该文对其中的一些关键问题,如智能化Web信息评价、资源价值标定、分布式图结构索引等Web信息挖掘的模型和算法方面进行了深入研究,把智能挖掘算法有机的结合到搜索引擎中,提出了若干个有...
- 张岭
- 关键词:WEB挖掘搜索引擎智能信息检索超链接分析
- 文献传递