国家社会科学基金(02BTQ012)
- 作品数:6 被引量:67H指数:3
- 相关作者:侯汉清薛鹏军章成志何琳张雪英更多>>
- 相关机构:南京农业大学南京工业职业技术学院更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于标引经验和机器学习相结合的多层自动分类被引量:21
- 2006年
- 由于《中国图书馆分类法》类目数目庞大且各类目上文献分布不均衡,导致基于机器统计学习的自动分类技术在这种多层分类体系上力不从心。基于人工标引经验的自动分类试图通过情报检索语言兼容互换的原理解决这一问题,然而直接应用标引词申对分类进行匹配在实际应用中产生了一系列的问题。本文试图通过将两种分类技术相结合的方法对信息资源进行分类,提出了用相关度来测定关键词和类目概念之间的关联,构建关键词、分类号、归属度三元组矩阵的方法进行分类匹配,并在小规模的测试集上得到了较好的效果。本文详细讨论此种分类器的构建原理、构建方法以及分类流程,并对该方法存在的不足进行了分析。
- 何琳侯汉清白振田张雪英
- 关键词:中国图书馆分类法自动标引语料库
- 面向主题的文本层次模型研究
- 2004年
- 针对当前Web文本挖掘工具的不足之处 ,提出了一种基于层次结构、面向主题挖掘的模型 ,即文本层次模型TLM ,给出该模型中各层次含义、层间关系及实现方法 ,描述了各层中所包含的噪声及过滤方法 ,介绍了利用该模型进行基于概念语义网络的自动标引和自动分类的研究情况 ,总结了TLM模型的优点和有待改进的地方。
- 章成志
- 关键词:WEB文本挖掘主题挖掘TLM概念语义网络自动标引
- 基于知识库的网页自动标引和自动分类系统的设计被引量:45
- 2004年
- 针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。
- 侯汉清薛鹏军
- 关键词:知识库自动标引自动分类系统概念语义网络
- 中文信息自动分类用知识库的设计与构建
- 2003年
- 在计算机智能处理技术远未成熟的情况下,基于概念语义网络的自动分类采用知识库技术,仍将是一种实用的选择。本项研究根据分类语言、主题语言、自然语言三者兼容互换的原理,以众多标引员的主题标引和分类标引的经验,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础,建立一个以《中图法》为基础的分类知识库——分类法与主题词表对照数据库。论文对构建分类知识库的思路、步骤及主要技术,包括关联度测度方案、标引词模式匹配、新词增补等进行了讨论。
- 侯汉清薛鹏军
- 关键词:知识库构建分类主题一体化《中国图书馆分类法》《中国分类主题词表》
- 基于语料和基于标引经验的自动分类模式比较被引量:11
- 2005年
- 从原理、系统设计、知识库构建、分类算法、性能等方面对自动分类的两种模式———基于训练语料和基于人工标引经验———进行介绍和比较,这两种分类模式都具有一定的可行性。基于训练语料的自动分类模式完全依靠机器学习从训练集中发现类目的特征,数学论证充分,易于维护,比较适合于面向行业和主题的粗分类,但是过分强调了机器学习的效能,忽略了人工智力劳动成果的利用,训练过程和分类过程运算量,算法复杂;而基于标引经验的自动分类模式利用简单的统计学方法从书目数据库中挖掘人工标引经验,适用于面向体系分类法的详细分类,分类算法简单,运算量小,但过分依赖经验,缺乏有说服力的数学证明。知识库的完备性和合理性是影响两者分类效能的主要因素,是两者面临的共同问题。
- 薛春香夏祖奇侯汉清
- 关键词:自动标引语料库知识库《中国图书馆分类法》