徐泽平
- 作品数:6 被引量:112H指数:4
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家技术创新计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 网页多词元快速聚类算法被引量:11
- 2003年
- 在对网页相似度分析的基础上,提出网页多词元快速聚类算法。这种算法针对中文,采用词元相似度聚类方法,利用一元组相似度判断对网页进行快速初步聚类,然后在此结果中利用二元组相似度判断进行精确聚类,兼顾了聚类精度和速度的要求。
- 李振星徐泽平唐卫清唐荣锡
- 关键词:网页INTERNET相似度向量空间模型
- 数据挖掘在Internet信息检索中的应用
- 该文的工作是在'智能网站信息查询系统'的开发过程中,对数据挖掘技术进行了较为深入的研究,包括自动分词、用户兴趣模型、自动网页分类、网页聚类等方面.该文的主要工作如下:1、通过为分词词典建立首安Hash表和词索引表两级索引...
- 徐泽平
- 关键词:数据挖掘信息采集信息检索分类器
- 文献传递
- Web多媒体邮件中的编码解码方法研究被引量:3
- 2001年
- 文章在对多媒体邮件标准和多媒体邮件编码方法进行研究的基础上,分析了中文Web多媒体邮件中出现的乱码问题,提出了中文多媒体邮件编码解码算法。列出了利用该算法在实现中文Web多媒体系统的过程中会碰到的一些问题,并给出了相应的解决策略。
- 徐泽平李振星唐卫清
- 关键词:多媒体邮件乱码WEB解码电子邮件INTERNET
- 全二分最大匹配快速分词算法被引量:85
- 2002年
- 分词对于中文信息处理的诸多领域都是一个非常重要的基本组成部分,对于诸如搜索引擎等海量信息处理的应用,分词的速度是至关重要的。该文在对中文编码体系和中文分词的算法进行研究的基础上,提出一种新的分词词典,基于这种分词设计了一种快速的分词算法,给出了算法的实现过程。
- 李振星徐泽平唐卫清唐荣锡
- 关键词:自动分词中文信息处理数据结构
- 基于兴趣模型的WEB信息预测采集过滤方法
- Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。本文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对W...
- 李振星徐泽平
- 关键词:信息采集文本过滤
- 文献传递
- 基于兴趣模型的WEB信息预测采集过滤方法被引量:9
- 2003年
- Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。
- 李振星徐泽平唐卫清唐荣锡
- 关键词:信息采集文本过滤WEB网络资源INTERNET信息检索