曹中华
- 作品数:4 被引量:15H指数:3
- 供职机构:江西财经大学信息管理学院更多>>
- 发文基金:国家自然科学基金江西省卫生厅中医药科研基金江西省科技支撑计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- Skip-Gram结构和词嵌入特性的文本主题建模被引量:7
- 2020年
- 常见词嵌入学习可以理解为是在分解词的点互信息值矩阵,主题一致性评价方法也使用了词的点互信息,二者存在紧密的联系,但是现今还缺少深入分析主题一致性评价标准和词嵌入之间联系,并将词嵌入的主题特性应用于主题建模的研究.先分析了主题一致性和常见词嵌入的联系,Softmax函数生成的主题-词项分布的特性;然后提出主题分布式假设,并引入SkipGram结构描述中心词的主题和相邻词之间的关联,从而充分使用词嵌入向量相似、关联特点挖掘文本主题.在3种公开数据集上的实验表明,该模型方法比较现有神经网络结构的主题模型,在主题一致性、主题词的专有性方面都有显著提高;同时模型的主题嵌入向量和主题代表词嵌入向量间具有很强的相似或关联特性.
- 夏家莉曹中华曹中华彭文忠
- 关键词:主题模型
- 关系概念的Web文本主题抽取模型研究被引量:1
- 2016年
- Web文本主题抽取是文本分类与知识发现的研究热点,既有的抽取方法一般存在主题粒度确定、主题语义解释、新网络词汇识别等难题,限制了其在开放应用领域的使用效果.论文借助百度百科词条背景,基于关系概念的概念分层以及主题连通的思想,面向中文文本构建了关系概念主题抽取模型(relational concept topic model,RCTM),RCTM模拟人的概念局部识别,上下文语境理解的并行阅读方式,由此实现中文文本的主题抽取.RCTM中主题的表达相对独立、语义连通灵活,主题的描述具有更好的通用性与可解释性,为Web文本主题抽取提供了新的研究思路.实验表明,RCTM具有良好的主题抽取准确率,文本抽取出的主题词,简洁直观、可解释性好.针对开放的WEB文本,具有更好的通用性、稳定性.
- 程春雷夏家莉曹重华李光泉曹中华
- 关键词:文本主题抽取
- 词关联规则层状稀疏主题编码模型被引量:3
- 2019年
- 模型规则化可以通过给模型加入先验知识,而避免模型过拟合,并且能够使模型参数稀疏,选择出最有代表性的模型参数.具有稀疏性的主题特征能够更有效的表示文本语义信息,通过WordNet和Word2Vec可以得到相似词集,将相似词集的编码向量归属为相同组,构造相似词组语义约束,并将其表示为层状结构化先验信息,论文因此而实现了两种层状稀疏规则化方法,应用于主题编码模型.实验表明采用层状规则化的稀疏编码模型可以提高主题模型编码效果,学习到主题一致性、分类结果更好的文本主题信息.
- 曹中华曹中华夏家莉李光泉
- 多原型词向量与文本主题联合学习模型被引量:4
- 2020年
- 常见的词嵌入向量模型存在每个词只具有一个词向量的问题,词的主题值是重要的多义性条件,可以作为获得多原型词向量的附加信息。在skip-gram(cbow)模型和文本主题结构基础上,该文研究了两种改进的多原型词向量方法和基于词与主题的嵌入向量表示的文本生成结构。该模型通过联合训练,能同时获得文本主题、词和主题的嵌入向量,实现了使用词的主题信息获得多原型词向量,和使用词和主题的嵌入式向量学习文本主题。实验表明,该文提出的方法不仅能够获得具有上下文语义的多原型词向量,也可以获得关联性更强的文本主题。
- 曹中华曹中华夏家莉彭文忠
- 关键词:多义词主题模型神经网络