罗林波
- 作品数:4 被引量:24H指数:2
- 供职机构:海南大学信息科学技术学院更多>>
- 发文基金:海南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于网页内容和链接的主题爬虫研究与实现
- 随着互联网上的信息量越来越大,传统搜索引擎的局限性如覆盖率低、时效性差、结果不准确等已日趋明显。针对以上情况,另一种搜索引擎悄然出现,它可以在一定范围内取得比传统搜索引擎更令人满意的结果,这就是垂直搜索引擎。主题爬虫是垂...
- 罗林波
- 关键词:主题爬虫
- 文献传递
- 基于Shark-Search和Hits算法的主题爬虫研究被引量:19
- 2010年
- 主题爬虫是实现垂直搜索引擎的核心技术。介绍主题爬虫的两个重要爬行算法:基于网页内容评价的Shark-Search算法和基于网页链接关系的Hits算法,并分析了各自的优缺点,提出了一种新的主题爬行策略:将上述两种算法的优点结合起来即将基于网页内容评价和基于网页链接关系算法结合起来判断待下载url的优劣,并实现了一个主题爬虫。这种新策略正好弥补了两个算法各自的不足。通过与Shark-Search算法和Hits算法实现的主题爬虫对比,发现用新算法实现的主题爬虫查准率比这两种算法高。
- 罗林波陈绮吴清秀
- 关键词:主题爬虫垂直搜索引擎
- 基于改进Hits算法的多主题爬虫研究与实现被引量:2
- 2010年
- 本文依据主题爬虫原理,分析了现有的Hits算法的不足,从而提出了一种新的多主题爬虫算法:MT-Hits算法,并进行了实现。实验表明,基于MT-Hits算法的主题爬虫查询收获率比基于Hits算法主题爬虫收获率有了进一步提高,且方便更改下载主题。
- 曾水香罗林波
- 关键词:主题爬虫垂直搜索引擎
- 氨基酸序列特征提取方法研究被引量:3
- 2010年
- 组成蛋白质的基本单位是氨基酸,对于蛋白质分类预测问题,氨基酸序列特征提取方法是一个非常重要的因素。对基于氨基酸组成、位置的特征提取算法如熵密度、n阶耦联组成和基于氨基酸性质的特征提取方法如自相关函数、伪氨基酸组成等方法进行了阐述,并进行了简单评价。基于氨基酸组成的方法实现简单、计算量小,且对所有的氨基酸序列都适用,但丢失了氨基酸的顺序信息以及其间的相互作用,基于氨基酸位置信息或理化特性等方法计算量非常大,科研工作者可以根据对蛋白质的不同要求选择相应的特征提取方法。
- 罗林波陈绮
- 关键词:特征提取熵密度