冯是聪
- 作品数:9 被引量:226H指数:5
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文网页自动分类技术研究及其在搜索引擎中的应用
- 该文对中文网页自动分类技术这一具有重要理论意义和广阔应用前景的课题进行了研究和探索,主要的研究成果有:(1)影响分类器性能的关键因素的定量分析:针对影响分类器性能的两个基本指标(分类质量和分类效率)及其相互关系,该文从系...
- 冯是聪
- 关键词:搜索引擎WEB挖掘中文网页自动分类
- “天网”目录导航服务研究被引量:18
- 2004年
- 为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
- 冯是聪单松巍龚笔宏张志刚李晓明
- 关键词:搜索引擎WEB挖掘中文网页分类
- 几种典型特征选取方法在中文网页分类上的效果比较被引量:112
- 2003年
- 针对中文网页,比较研究了CHI、IG、DF以及MI特征选取方法。主要的实验结果有:(1)CHI、IG和DF的性能明显优于MI;(2)CHI、IG和DF的性能大体相当,都能够过滤掉85%以上的特征项;(3)DF具有算法简单、质量高的优点,可以用来代替CHI和IG;(4)使用普通英文文本和中文网页评测特征选取方法的结果是一致的。
- 单松巍冯是聪李晓明
- 关键词:中文网页分类特征选取评测
- 基于Web挖掘的个性化技术研究被引量:61
- 2004年
- 针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
- 冯是聪单松巍张志刚龚笔宏李晓明
- 关键词:WEB挖掘个性化服务用户建模代理人工智能
- 处理中文新词的方法与装置
- 本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查...
- 龚笔宏冯是聪
- 文献传递
- 一种中文网页自动分类方法的实现及应用被引量:28
- 2004年
- 为了有效地组织和分析海量的Web信息,文章应用有指导的机器学习方法实现了一个中文网页分类器,并应用该分类器在“天网”搜索引擎上实现了大规模中文网页的目录导航服务。实验结果表明该分类器有较高的分类质量,满足了中文网页自动分类的要求。
- 冯是聪张志刚李晓明
- 关键词:中文网页分类特征选取
- kNN与NB算法在中文网页分类上的比较研究
- 针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定...
- 龚笔宏冯是聪
- 关键词:中文网页分类KNNNB评测数据集
- 文献传递
- 关于“中文网页自动分类竞赛”结果的分析被引量:9
- 2003年
- 在最近召开的"全国搜索引擎与网上信息挖掘学术研讨会"上,举办了一场"中文网页自动分类竞赛",共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
- 冯是聪王继民
- 关键词:计算机应用中文信息处理中文网页自动分类
- 学习中文新词的方法与装置
- 本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查...
- 龚笔宏冯是聪
- 文献传递