您的位置: 专家智库 > >

贾自艳

作品数:14 被引量:587H指数:8
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家自然科学基金北京市自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 10篇期刊文章
  • 2篇学位论文
  • 1篇会议论文
  • 1篇科技成果

领域

  • 12篇自动化与计算...
  • 3篇文化科学

主题

  • 4篇新闻
  • 4篇数据挖掘
  • 4篇抽取
  • 3篇新闻专题
  • 3篇数据仓库
  • 3篇网络
  • 3篇聚类
  • 3篇概念语义
  • 2篇信息抽取
  • 2篇语义空间
  • 2篇知识发现
  • 2篇数据清洗
  • 2篇网络信息
  • 2篇文本分类
  • 2篇概念语义空间
  • 2篇WEB挖掘
  • 2篇ETL
  • 1篇短语抽取
  • 1篇新闻标识语言
  • 1篇新闻事件

机构

  • 12篇中国科学院
  • 5篇中国科学技术...
  • 1篇北京工业大学
  • 1篇山东科技大学
  • 1篇上海体育学院
  • 1篇中国科学院研...

作者

  • 14篇贾自艳
  • 12篇史忠植
  • 6篇李嘉佑
  • 4篇何清
  • 3篇张海俊
  • 3篇黄友平
  • 3篇刘少辉
  • 2篇李清勇
  • 2篇秦亮曦
  • 2篇谭浩
  • 2篇张宁
  • 1篇刘继敏
  • 1篇游湘涛
  • 1篇胡宏
  • 1篇宫秀军
  • 1篇胡斐
  • 1篇李晓黎
  • 1篇梁吉业
  • 1篇郑征
  • 1篇叶施仁

传媒

  • 2篇计算机研究与...
  • 2篇计算机工程
  • 2篇计算机工程与...
  • 1篇科技导报
  • 1篇图书情报知识
  • 1篇计算机应用
  • 1篇系统仿真学报
  • 1篇2003中国...

年份

  • 1篇2007
  • 1篇2006
  • 1篇2005
  • 7篇2004
  • 2篇2003
  • 1篇2002
  • 1篇2001
14 条 记 录,以下是 1-10
排序方式:
新闻标识语言(NEWSML)在提高信息检索效率中的应用被引量:3
2004年
本文主要介绍了什么是NEWSML以及它的标准 ,并分析了怎样采用NEWSML这种标准来标识文档 ,如何随时添加各种来源和格式的信息素材 。
谭浩贾自艳史忠植
关键词:信息检索
机器学习与网络信息处理
机器学习在网络信息处理中占有重要地位.Ghunt是一个采用多项机器学习技术的网络信息智能获取与处理系统.首先,这一系统支持分布式的网络信息并行搜索与内容过滤;其次,采用机器学习技术,包括文本分类、聚类,文本概念抽取,从概...
何清贾自艳张海俊李嘉佑李清勇史忠植
关键词:网络信息概念语义空间聚类
文献传递
网络信息的智能获取理论研究
史忠植何清梁吉业胡宏刘继敏宫秀军李晓黎叶施仁刘少辉游湘涛吴斌贾自艳黄友平李嘉佑郑征董明楷张海俊李清勇
该项目在研究网络信息智能获取理论的基础上,构建智能信息处理平台,实现信息/知识的一体化获取、管理、服务,达到信息/知识共享,为应用系统开发提供支持软件和开发工具以及系统规范,可以快速开发出特定领域的具有不同功能的信息系统...
关键词:
关键词:知识发现网络信息获取
一种基于Rough集的层次聚类算法被引量:30
2004年
Rough集理论是一种新型的处理含糊和不确定性知识的数学工具 ,将Rough集理论应用于知识发现中的聚类分析 ,给出了局部不可区分关系、个体之间的局部不可区分度和总不可区分度、类之间的不可区分度、聚类结果的综合近似精度等定义 ,在此基础上提出了一种基于Rough集的层次聚类算法 ,该算法能够自动调整参数 ,以寻求更优的聚类结果 实验结果验证了该算法的可行性 。
刘少辉胡斐贾自艳史忠植
关键词:ROUGH集聚类
基于概率统计技术和规则方法的新词发现被引量:41
2004年
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。
贾自艳史忠植
关键词:新词发现短语抽取二元语法语料库
Web信息智能获取若干关键问题研究
该文对Web信息获取若干关键问题,包括信息采集、信息抽取、事件探测和追踪、以及事件来龙去脉等方面,从模型、算法和应用三个层次上进行了深入细致的研究,主要贡献和创新点包括如下几个方面:(1)通过对Web信息采集过程及其实例...
贾自艳
关键词:信息抽取知识发现WEB挖掘概念语义空间新闻专题
文献传递
使用KNN算法的文本分类被引量:131
2005年
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。
张宁贾自艳史忠植
关键词:数据挖掘文本分类KNN算法向量空间模型
新闻专题的高效组织和生成新方法被引量:1
2004年
为了解决对新闻文档人工分类繁琐的问题,本文采用文本挖掘方法对新闻专题进行组织和生成,对新闻事件进行探测与跟踪,然后进行相关新闻专题的归纳。本文还特别对生成的新闻事件如何进行组织和管理,以及得到专题事件的来龙去脉,做了较为详尽的描述,同时对新闻事件的检索方法做出了一些探索性的工作。
谭浩贾自艳史忠植
关键词:新闻专题数据挖掘文本分类聚类分析
多策略数据挖掘平台MS Miner的元数据管理被引量:3
2003年
元数据在数据仓库中扮演着非常重要的角色 ,对数据仓库的设计、开发、维护和管理具有非常重要的作用。在作者开发的多策略数据挖掘平台 (MSMiner)中将元数据的使用范围从数据仓库拓展到包括ETL和数据挖掘任务等的整个系统 ,使之成为系统的核心和各个子系统之间联系的纽带。文中介绍了MSMiner的体系结构、元数据的主要内容、元数据管理实现的难点及采用的技术。
秦亮曦史忠植刘少辉黄友平贾自艳赵雷李嘉佑
关键词:数据仓库数据挖掘元数据元数据管理
基于Web挖掘的网页清洗技术被引量:9
2006年
随着互联网上信息的大量增多,Web挖掘技术越来越重要。而在Web挖掘过程中,基于Web的信息抽取的主要部分是如何去除网页中的噪音数据,它是Web数据的预处理的过程,这个预处理结果影响了Web挖掘的结果。在文中先分析了噪音数据的特点,然后根据实际观察提取规则并且用于模型统计的方法,去除噪音数据,抽取相关可利用的信息。
李嘉佑贾自艳何清史忠植
关键词:信息抽取噪音数据
共2页<12>
聚类工具0