欧杰
- 作品数:1 被引量:3H指数:1
- 供职机构:广西大学计算机与电子信息学院更多>>
- 发文基金:广西壮族自治区自然科学基金更多>>
- 相关领域:自然科学总论更多>>
- 基于图文有效信息量的网页正文定位被引量:3
- 2011年
- 在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。
- 梁正友欧杰俞闽敏
- 关键词:网页图文