周枫 作品数:72 被引量:142 H指数:6 供职机构: 昆明理工大学 更多>> 发文基金: 国家自然科学基金 云南省自然科学基金 云南省教育厅科学研究基金 更多>> 相关领域: 自动化与计算机技术 语言文字 建筑科学 电子电信 更多>>
基于跨事件理论的新闻事件时序关系识别方法 被引量:4 2017年 针对TempEval-2010会议所提供中文语料中的时序关系识别任务,采用基于条件随机场的方法自动识别获得信号词,并融入跨事件理论,利用基于最大熵模型的分类算法对信号词与其他语言特征进行时序关系识别,同时使用约束传播的推理方法解决语料稀疏问题。实验结果表明,基于条件随机场的方法信号词自动识别准确率为69.21%,融入跨事件理论的时序关系识别准确率达到84.7%,表明所提方法可有效改善识别效果。 丁硙 周枫 庙介璞 余正涛 周兰江 严馨关键词:信号词 条件随机场 最大熵 新闻事件 融合LSTM和LDA差异的新闻文本关键词抽取方法 被引量:3 2020年 针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。 宁珊 严馨 周枫 王红斌 王红斌关键词:抽取 新闻标题 LDA模型 使用胶囊网络的细粒度情感分析方法 被引量:7 2020年 Aspect-BasedSentimentClassification(ABSC)属于细粒度情感分析任务之一,旨在发现实体方面(Aspect)相关的情感倾向.本论文中提出一种基于胶囊网络的模型:MADC(Model based on Asp-Routing and Doc-Routing Capsule),通过迁移模型将文档级别的特征和语义信息用于方面级情感分析中,针对文档级别和句子级别的的任务,分别使用了基于注意力机制的AspRouting和Doc-Routing动态路由方法,加强了句子级别任务情感分析的可信度.为了让模型识别特定领域词向量的语义信息,文章使用双嵌入词向量加位置信息的表示方法,通过卷积神经网络抽取特征作为胶囊网络的输入,再使用两层动态路由算法使网络共享迁移学习的特征胶囊和主胶囊,最后针对不同的任务使用不同的类胶囊输出向量对方面情感或文档级别情感作出极性预测.文章通过在数据集上与多个框架的对比论证了模型的有效性. 滕磊 严馨 徐广义 周枫 邓忠莹关键词:动态路由 一种基于GRU模型的老挝语情感分析方法 本发明涉及一种基于GRU模型的老挝语情感分析方法,它属于自然语言处理和深度学习技术领域。GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同时还混合了细胞状态和隐藏状态。最终的模型比标准的LSTM模型... 周兰江 陈琢 张建安 周枫文献传递 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法 本发明涉及基于柬汉词对齐语料构建柬埔寨语依存树库的方法,属自然语言处理领域。本发明先构建柬汉词对齐平行语料库,在构建柬汉词对齐平行料库时先使用GIZA++进行词对齐,但由于GIZA++会出现数据稀疏的问题,再使用双语词典... 严馨 李思远 郭剑毅 周枫 王红斌文献传递 融合多特征的越南语新闻文本词汇链构建方法 2017年 为帮助读者更快掌握新闻文本的主旨,确定篇章结构,使用维基百科语义资源库,基于文档链接信息图和分类结构图两大特征计算候选词的路径信息和节点深度以及文档分类信息,利用语关相似度和语似相关度进行初步词汇链的构建,结合越南语特征,提出5个特征项对初建词汇链优化加权处理,实现词汇链最终构建。实验结果表明,对比使用HowNet、WordNet语料库的方法,该方法在准确率和召回率上有显著提高。 陈杨 周枫 周兰江 严馨关键词:维基百科 语义相似度 语义相关度 基于深度主动学习的柬语单文档抽取式摘要方法 2021年 深层神经网络在文档摘要方面取得了很好的效果,其优势只有在大数据集下才能显示出来。为了解决在使用深度学习做柬语单文档抽取式摘要时语料标注不足的问题,提出一种将主动学习和深度学习相结合的方法。利用主动学习抽样策略选择出定量的文档,通过专家标注,结合深度学习中编码器解码器模型进行训练模型抽取得到摘要。实验结果表明,在训练语料显著标注不足的情况下,该方法能够有效地提升柬语单文档摘要的质量。 余兵兵 严馨 周枫 徐广义 莫源源基于卷积神经网络的老挝语印刷体文本光学字符识别方法 本发明公开了一种基于卷积神经网络的老挝语印刷体文本光学字符识别方法,属于自然语言处理和机器学习技术领域。本发明在输入印刷体文本扫描图片后,首先对图像进行二值化处理,并进行旋转矫正。然后因为老挝文为从左至右书写的横排元音附... 周兰江 郝永彬 周枫 张建安文献传递 基于HDP的主题词向量构造——以柬语为例 2020年 针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。 李超 李超 严馨 徐广义 谢俊 莫源源一种基于Dirichlet过程的可比语料双语平行片段抽取的方法 本发明涉及一种基于Dirichlet过程的可比语料双语平行片段抽取的方法,属于机器学习翻译与自然语言处理技术领域。本发明首先需要通过双语主题模型获得双语可比语料对的主题分布,再通过泊松分布随机切分双语可比语料,然后设定一... 严馨 蒋亚芳 余正涛 徐广义 周枫 郭剑毅文献传递