黄莉
- 作品数:20 被引量:136H指数:8
- 供职机构:武汉大学动力与机械学院更多>>
- 发文基金:教育部留学回国人员科研启动基金湖北省高校图工委科研基金国家电网公司科技项目更多>>
- 相关领域:自动化与计算机技术文化科学电气工程更多>>
- 文本分类中训练集相关数量指标的影响研究被引量:6
- 2014年
- 针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。
- 李湘东曹环黄莉
- 关键词:文本分类多因素方差分析语料库
- 数字图书馆多种类型文献混合自动分类研究被引量:7
- 2014年
- 探索数字图书馆的图书、期刊、网页等不同类型的馆藏文献进行分类组织时,多种类型文献单独及混合自动分类的特点。采用KNN等分类算法对多种类型文献进行分类实验并分析比较。仿真实验表明:随着实验文本数增加,各种类型文献的单独自动分类准确率有2%至7.8%不等的提升。图书与学术性期刊、网页与非学术性期刊之间的混合分类效果较好,分类准确率可达到85%以上;对多种类型文献实现基于自动分类的统一组织具有较高的可行性。
- 李湘东胡逸泉巴志超黄莉
- 关键词:数字图书馆
- 一种基于加权LDA模型和多粒度的文本特征选择方法被引量:18
- 2015年
- 【目的】为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权LDA模型和多粒度的文本特征选择方法。【方法】在点互信息(PMI)模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至LDA的生成模型中,以抽取表意性较强的粗粒度特征;结合TF-IDF计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用KNN、SVM等算法实现书目文本的分类。【结果】在自建图书、期刊材料上进行分类实验,与LDA方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60%和4.79%。【局限】实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果。【结论】实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率。
- 李湘东巴志超黄莉
- 关键词:书目信息文本分类
- 基于《中图法》的自动分类研究现状与展望被引量:7
- 2012年
- 将人工智能研究领域中的文本自动分类技术应用于信息资源管理领域是当前的研究重点之一,而目前信息资源管理领域具有体系结构严格、类目数量巨大、类目层次众多等特点。本文充分考虑这些特点,针对《中国图书馆图书分类法》分类体系下文本自动分类研究的现状,从研究目的、类目体系、资源类型等方面,参考国外相关研究的成果和方法予以分析和评价;结合国外相关研究的最新成果,提出我国在《中国图书馆图书分类法》分类体系下应用文本自动分类技术时应注意的问题及今后的研究方向。
- 黄莉李湘东
- 关键词:中图法类目体系文本类型语料库
- 两种相似度计算方法对KNN分类效果的影响研究被引量:5
- 2012年
- KNN最邻近算法是文本自动分类中最基本且常用的算法,该算法中需要计算文本之间的相似度。以Jens-en-Shannon散度为例,在推导和说明其基本原理的基础之上,将其用于计算文本之间的相似度;作为对比,也使用常规的余弦值方法计算文本之间的相似度,并进而使用KNN最邻近算法对文本进行分类,以探讨不同的相似度计算方法对使用KNN最邻近算法进行文本自动分类效果的影响。多种试验材料的实证研究说明,较之于余弦值方法,基于Jensen-Shannon散度计算文本相似度的自动分类会使分类正确率更高,但会花费更长的时间。
- 黄莉李湘东
- 关键词:文本自动分类相似度散度
- LDA模型下书目信息分类系统的研究与实现被引量:12
- 2014年
- 【目的】改善图书和期刊论文等的书目信息的分类性能。【应用背景】采用传统向量空间模型对图书和期刊论文等书目信息分类的效果不理想,通过LDA模型挖掘文本隐含语义信息,能有效提高分类效果。【方法】通过LDA建模,用隐含主题表示文本并通过分类效果确定最优主题数,在此基础上采用SVM算法分类。【结果】实验表明,在复旦和Sogou公开语料库中的Macro_F1分别达到95.5%和93.5%;在馆藏目录及电子期刊数据库等真实书目数据中的Macro_F1分别达到77.4%和87.6%。【结论】在真实数据上的分类性能比传统向量空间模型分别提高10%和3%,达到实用水平。
- 李湘东廖香鹏黄莉
- 关键词:LDA模型文本分类向量空间模型GIBBS抽样SVM
- 针对训练集分布偏斜问题的数字资源文本分类方法被引量:2
- 2014年
- 【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法 B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模的限制,构造训练集进行实验时,只涉及部分偏斜情况;此外,实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。
- 李湘东何海红曹环黄莉
- 关键词:文本分类数字资源
- 基于语料信息度量的文本分类性能影响研究被引量:5
- 2014年
- 基于不同的分类算法针对特性迥异的语料数据进行分类,其分类效果往往不同。通过研究分类算法针对专门语料库与自建语料库分类效果各不相同的根本原因,提出一种提高分类性能的新途径。从不同语料库的自动分类对比入手,定义类别聚类密度、类别复杂度、类别清晰度三个指标对语料库信息进行度量,通过多因素方差分析考察三个指标与分类性能的关系,得出语料的各项指标对不同分类算法分类性能的影响关系,并提出一种基于类别清晰度的交叠类文本分类方法以验证指标的有效性。实验表明:该三个指标都在不同程度上影响着分类算法的分类性能。语料类别的聚类密度越高,复杂度越低,类别清晰度越高,其表现出的分类效果越好。
- 李湘东巴志超黄莉
- 关键词:语料库类别信息
- 采用LDA主题模型的多种类型文献混合自动分类研究被引量:8
- 2015年
- 探索对多种类型文献进行混合分类组织时LDA主题模型的可行性及优越性。以图书、期刊、网页等不同类型的馆藏文献作为实验对象,分别采用LDA主题模型与VSM模型对实验材料进行建模,采用SVM算法实现文本混合自动分类。仿真实验表明:LDA主题模型相对VSM模型具有一定优势,混合自动分类准确率最大差距达19.9%;图书与学术性期刊、网页与非学术性期刊之间的混合分类效果较好,分类准确率可达72%以上。实验证明LDA主题模型对实现多种类型文献统一组织具有较高的可行性和适用性。
- 李湘东胡逸泉黄莉
- 关键词:LDA模型数字图书馆
- 利用《知网》和领域关键词集扩展方法的短文本分类研究被引量:17
- 2015年
- 【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的Macro_F1分别平均提高4.9%、5.9%和4.2%,在Micro_F1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。
- 李湘东曹环丁丛黄莉
- 关键词:LDA知网