国家自然科学基金(61073133) 作品数:5 被引量:30 H指数:3 相关作者: 鲁明羽 刘娜 肖智博 更多>> 相关机构: 大连海事大学 大连工业大学 更多>> 发文基金: 国家自然科学基金 长江学者和创新团队发展计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
面向多标签文本分类的深度主题特征提取 被引量:14 2019年 针对单标签特征提取方法不能有效解决多标签文本分类的问题,文中提出融合主题模型(LDA)与长短时记忆网络(LSTM)的双通道深度主题特征提取模型(DTFEM).LDA与LSTM分别作为两个通道,通过LDA为文本的全局特征建模,利用LSTM为文本的局部特征建模,使模型能同时表达文本的全局特征和局部特征,实现有监督学习与无监督学习的有效结合,得到文本不同层次的特征提取.实验表明,相比文本特征提取模型,文中模型在多标签分类结果上的多项指标均有明显提升. 陈文实 刘心惠 鲁明羽关键词:主题模型 自适应主题融合的多文档自动摘要算法 在LDA主题模型的基础上,提出自适应主题融合的多文档自动摘要算法。考虑到标题信息对摘要形成有很强的指示作用,为文档的标题和正文内容分别建立主题模型,并对2个模型进行融合。融合过程中,根据2种形态的信息熵进行自适应不对称学... 刘娜 肖智博 路莹 唐晓君 肖鹏关键词:多文档摘要 主题模型 自适应学习 信息熵 文献传递 基于编码解码器与深度主题特征抽取的多标签文本分类 被引量:6 2019年 本文提出了一种基于编码解码器与深度主题特征的模型,实现了多标签文本分类.针对传统多标签文本分类方法的特征语义缺失的问题,采用一种长短时记忆(long short-term memory,LSTM)网络提取文本的局部特征与主题模型(latent dirichlet allocation,LDA)提取文本的全局特征的深度主题特征提取模型(deep topic feature extraction model,DTFEM),得到具有文本深层语义特征的语义编码向量,并将该编码向量作为解码器网络的输入.解码器网络将多标签文本分类的任务看作序列生成的过程,解决了多标签文本分类的标签相关性的问题,并加入attention机制,计算注意力分布概率,突出关键输入对输出的作用,改进了由于输入过长导致的语义缺失问题,最终实现多标签文本分类.实验结果表明,该模型能够获得比传统的多标签文本分类系统更优的结果.另外,实验证明使用深度主题特征的方法可以提高多标签文本分类的性能. 陈文实 刘心惠 鲁明羽关键词:编码解码器 基于模糊K-调和均值的单词-文档谱聚类方法 被引量:3 2012年 在分析单词-文档谱聚类方法的基本步骤,找出其对初始值敏感的根本原因的基础上,提出一种基于模糊-调和均值的单词-文档谱聚类方法.首先从矩阵相似的角度对谱聚类中的Laplacian矩阵进行处理,使其满足对初始值不敏感的条件;然后通过加入模糊的概念,用模糊K-调和均值算法代替K-均值算法,使聚类结果对初始值不敏感.实验结果表明,所提出的方法不仅使聚类结果对初始值不敏感,而且在一定程度上提高了数据的鲁棒性. 刘娜 肖智博 鲁明羽关键词:谱聚类 K-均值 基于主题特征的多标签文本分类方法研究 文本的自动分类是指按照预先定义的标签类别,通过一定的学习机制,在对带有类别标签的训练文本进行学习的基础上,给未知文本分配一个或多个类别标签的过程,然而随着电子文档信息量的急剧增长,文本内容的多样化,确定文本的单标签分类技... 陈文实关键词:主题模型 贝叶斯神经网络 文献传递 基于形态学的单词-文档谱聚类方法 2012年 本文利用形态学的方法确定聚类数目,并对单词-文档谱聚类方法进行改进.确定聚类数目主要分三个步骤:第一步将单词-文档谱聚类方法中产生的矩阵转换成可视化聚类趋势分析方法(visual assessment of tendency,VAT)灰度图,第二步利用灰度形态学、图像二值化、距离转换等图像处理技术过滤产生的VAT灰度图,第三步对过滤后的VAT灰度图建立信号图,并进行平滑处理,通过平滑后的信号图的波峰波谷数目确定文档集的聚类数目.实验表明,该方法能够提高单词-文档谱聚类方法的聚类效果. 刘娜 肖智博 鲁明羽关键词:谱聚类 灰度形态学