徐凡 作品数:20 被引量:68 H指数:4 供职机构: 江西师范大学计算机信息工程学院 更多>> 发文基金: 国家自然科学基金 江西省自然科学基金 江苏省自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 电子电信 更多>>
实体驱动的双向LSTM篇章连贯性建模 篇章连贯性建模是自然语言处理研究领域的一个基础问题.主流的篇章连贯性模型分为两大类,分别是基于实体网格的连贯性模型和基于神经网络的篇章连贯性模型.其中,基于实体网格的篇章连贯性模型需要进行特征提取,而基于深度学习的模型没... 杜舒静 徐凡 王明文基于自注意力的端到端方言语音识别模型 被引量:4 2021年 方言语音识别是方言保护的核心环节。传统的方言语音识别模型缺乏考虑方言语音中特定方言音素的重要性,同时缺少多种语音特征提取及融合,导致方言语音识别性能不高。本文提出的端到端方言语音识别模型充分发挥了残差网络(Residual Network)和Bi-LSTM(Bi-directional Long Short-Term Memory)分别在语音帧内和帧间特征提取的优势,并利用多头自注意力机制有效提取不同方言中特定方言音素信息构成语音发音底层特征,利用该方言发音底层特征进行方言语音识别。在基准赣方言和客家方言两种方言语音语料库上的实验结果表明本文提出的方言语音识别模型显著优于现有基准模型,通过对注意力机制的可视化进一步分析了模型取得性能提升的根本原因。 徐凡 杨剑峰 颜为之 王明文关键词:注意力 赣方言 客家方言 篇章分析技术综述 被引量:16 2013年 篇章作为词和句子之后的一种文本分析粒度在自然语言理解和自然语言生成中起到至关重要的作用。该文从计算语言学角度出发,对中英文篇章分析技术的研究现状进行了综述。介绍了中英文篇章分析技术在自然语言处理中的应用,并分别从篇章理论、篇章语料库及评测、篇章分析器的自动构建等方面详细阐述了中英文篇章分析技术。最后归纳出篇章分析技术后续研究的几个方向。 徐凡 朱巧明 周国栋关键词:篇章 篇章分析 语料库 评测 实体驱动的双向LSTM篇章连贯性建模 被引量:2 2017年 篇章连贯性建模是自然语言处理研究领域的一个基础问题。主流的篇章连贯性模型分为两大类,分别是基于实体网格的连贯性模型和基于神经网络的篇章连贯性模型。其中,基于实体网格的篇章连贯性模型需要进行特征提取,而基于深度学习的模型没有充分考虑篇章中句子间的实体链接对连贯性建模的重要作用。基于此,该文首先抽取篇章中相邻句子的实体信息,将其进行分布式表示,然后将此信息通过多种简单且有效的向量操作融合至句子级的双向LSTM深度学习模型之中。在汉语和英语篇章语料上的句子排序和中英文机器翻译连贯性检测两种任务上的实验表明该文提出的模型性能和现有模型相比有所提升,尤其在中文上有显著提升。 杜舒静 徐凡 王明文机器译文自动评价中基于IHMM的近义词匹配方法研究 被引量:2 2016年 机器译文的自动评价推动着机器翻译技术的快速发展与应用,在其研究中的一个关键问题是如何自动的识别并匹配机器译文与人工参考译文之间的近义词。该文探索以源语言句子作为桥梁,利用间接隐马尔可夫模型(IHMM)来对齐机器译文与人工参考译文,匹配两者之间的近义词,提高自动评价方法与人工评价方法的相关性。在LDC2006T04语料和WMT数据集上的实验结果表明,该方法与人工评价的系统级别相关性和句子级别相关性不仅一致的优于在机器翻译中广泛使用的BLEU、NIST和TER方法,而且优于使用词根信息和同义词典进行近义词匹配的METEOR方法。 李茂西 徐凡 王明文细粒度科技论文摘要句子分类方法 被引量:3 2012年 以科技论文摘要句子为研究对象,提出一种两阶段的细粒度句子分类方法,通过结合摘要内各个句子的位置、关键词和上下文信息,选择部分易于分辨语境类型的句子,将其作为种子样本训练获得分类模型。利用机器学习的方法对摘要句子的背景知识、论文主题、研究方法和实验结果进行自动分类。实验结果表明,该方法中的F度量值比其他细粒度分类方法平均高3%~5%。 华秀丽 徐凡 王中卿 李培峰关键词:细粒度 语境 知识图谱驱动的图卷积神经网络谣言检测模型 2023年 社交媒体谣言以极低的成本在互联网中被快速扩散,给社会带来显著的负面影响.传统的谣言检测模型主要考虑传播模式、写作风格、用户信用和世界知识等信息.然而,谣言的传播模式通常难以被捕捉,写作风格却容易被模仿,由元数据(如职业、家乡、学历、年龄等)构成的用户信息也容易被伪造.本文提出了一种新颖的知识驱动的图卷积神经网络谣言检测模型.该模型首先将社交媒体文本表示成一种语义–实体无向图结构,其中节点包含原社交媒体文本中的词语,利用世界知识库扩展的实体词语,以及利用语言知识库扩展的语义词语,边包含三类节点的6种有效组合.该语义–实体图可以有效地增强任意两种节点的共现性,从而丰富了原社交媒体文本的表示,从一定程度上缓解数据稀疏共现问题.语言知识利用了HowNet (义原和同义词)以及WordNet (上义词、下义词和同义词)分别对中英文社交媒体文本的主题词进行扩充.并成功地将语言知识和实体知识通过图卷积神经网络框架有效集成.在4个国际基准中英文谣言语料库上的实验结果和可视化分析表明了本文模型的有效性. 徐凡 李明昊 黄琪 鄢克雨 王明文 周国栋关键词:语言知识 世界知识 主题模型 基于语谱图的江西境内赣方言自动分区研究 被引量:4 2021年 汉语方言分区研究是语言学的重要组成部分。鉴于传统基于词汇和语法的人工方言分区方法具有一定的主观性,该文研究了如何有效利用语音本身特征进行方言的自动分区。论文首先构建了江西省11个省辖市、91个下辖县级行政区的时长约1500分钟的1223条语音语料库,然后在传统的MFCC语音特征提取基础上,提出了基于CNN的自编码降维语谱图的深度学习特征提取模型,对降维后的语音特征分别采用k均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,新型语谱图特征的聚类性能度量内部指标DBI指数以及DI指数显著优于传统MFCC特征,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。 颜为之 王明文 徐凡 但扬杰 罗健关键词:语谱图 聚类 赣方言 方言分区 基于word2vec的大中华区词对齐库的构建 针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析.首先,抓取了维基百科以及简繁体新闻网站上的3,200,000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10,... 王明文 徐雄飞 徐凡 李茂西关键词:词对齐 余弦相似度 向量表示 基于词项共现关系图模型的中文观点句识别研究 被引量:5 2015年 不同于传统的词项间强独立性假设的词袋模型驱动的观点句识别方法,该文提出了一种新型的基于词项共现关系的图模型方法。该方法通过构建词项共现关系图模型,利用词项与词项之间的共现性和句法关系来描述词项在观点句和非观点句集合中的分布差异,同时采用基于入度的词项权重计算方法来计算词项特征值。上述研究在基准语料上进行实验,实验表明采用基于词项关系图模型方法后,中文观点句识别准确率相比目前基于词袋的方法得到显著提升。 王明文 付翠琴 徐凡 洪欢关键词:图模型 特征值 有监督学习