随着Internet上信息量的飞速增长,成千上万的网上文档需要分类以方便用户的浏览和获取。因此文档的自动分类工作已经越来越受到重视,一些相应的分类方法也应运而生。但其中很少有涉及到"层次化"的分类领域,且绝大多数方法仅仅返回单个分类结果。文中,我们提出了一种新的文档自动分类方法:MRHC(Multicategory ReturnedAlgorithmforHierarchicalClassification)。该方法着眼于层次化的分类技术,并在适当的情况下为文档返回多个分类结果。该方法中结合了特征削减和增量学习技术以便提高分类性能。最后,为了更加准确、客观的评价分类结果,提出了一种新的评估方法:LEP(Length of Error Path)。实验结果表明,提出的分类方法响应时间短,分类准确度高,具有较强的实用性。
As the rapidly growing information on Web, information filtering techniques have been more and morewidely used. This paper introduces two main filtering methods ,named content-based and collaborative filtering; con-trastively describes the key techniques in information filtering,including the representation,creation and rebuilding ofuser profile ,and similarity computing.
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(Multiple Information Block), Web页面无法处理。该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息。