高乐
- 作品数:4 被引量:16H指数:2
- 供职机构:浙江工业大学信息工程学院更多>>
- 发文基金:浙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- Web结构挖掘中的PageRank算法改进被引量:2
- 2008年
- 本文介绍了Web结构挖掘的基本原理,详细分析Google的PageRank算法,针对其中的缺陷进行改进,提出了一种集链接、时间、网页内容为一体的PageRank改进算法CTPR,目的是将内容与搜索内容相关度高的、比较权威的、新的网页排列在搜索结果的最前面。网页的等级由CTPR值决定,CTPR值由两个部分组成,一个是传统PR算法的值;另一个是网页自评值,它与内容权值成正比,与网页的内容的新旧程度成反比。最后,对此算法进行效果演示,验证算法的有效性。
- 钱杰张健高乐
- 关键词:PAGERANKWEB结构挖掘WEB数据挖掘
- 基于视觉的Web页面分块算法的改进与实现被引量:14
- 2009年
- 基于视觉的Web页面分块算法(Vision-based Page Segmentation Algorithm)作为网页分块技术重要的一部分,得到了广泛的应用,然而由于网页视觉特点的复杂性,导致VIPS具有算法规则过于复杂和性能相对不高等缺陷。针对存在的问题,本文用
标签树对微软提出的VIPS进行改进,提出一种改进算法CTVPS,最后通过实验证明了本文算法的正确性和性能优越性。- 高乐张健田贤忠
- 关键词:网页分块TABLE
- 基于网页分块的主题搜索引擎的研究与实现
- 搜索引擎解决了网上查找信息难的问题。随着网络信息指数级增长以及行业分工不断加大,针对专业领域的信息搜索在精度和深度方面要求日益提高,主题搜索引擎必然成为搜索引擎的发展方向。然而,随着网页主题的多元化,以网页为最小单位进行...
- 高乐
- 关键词:网页分块主题搜索搜索引擎
- 文献传递
- 基于网页分块的搜索引擎排序算法改进被引量:1
- 2009年
- 目前,搜索引擎以整张网页作为最小处理单位进行排序处理,容易受到噪音信息的干扰.针对存在的问题,提出用网页分块对网页净化,进而利用净化结果改进传统的排序算法.首先,用基于视觉的网页分块算法VIPS将网页分成若干语义块,然后通过设定规则保留网页中与主题相关度高的语义块,最后用这些语义块代表整个网页参与检索,减少网页噪音对搜索引擎排序算法正确性的影响,实现了检索质量的改进.最后通过实验证明了改进算法的优越性.
- 高乐张健钱杰
- 关键词:网页噪音网页分块网页净化