王红斌 作品数:57 被引量:148 H指数:6 供职机构: 昆明理工大学信息工程与自动化学院 更多>> 发文基金: 国家自然科学基金 云南省科技厅科研基金 云南省教育厅科学研究基金 更多>> 相关领域: 自动化与计算机技术 文化科学 政治法律 电气工程 更多>>
一种结合词向量和图模型的特定领域实体消歧方法 被引量:6 2016年 针对特定领域提出了一种结合词向量和图模型的方法来实现实体消歧。以旅游领域为例,首先选取维基百科离线数据库中的旅游分类下的页面内容构建领域知识库,然后用知识库中的文本和从各大旅游网站爬取到的旅游文本,通过词向量计算工具Word2Vec构建词向量模型,结合人工标注的实体关系图谱,采用一种基于图的随机游走算法辅助计算相似度,使其能够较准确地计算旅游领域词与词之间的相似度。最后,提取待消歧实体的背景文本的若干关键词和知识库中候选实体文本的若干关键词,利用训练好的词向量模型结合图模型分别进行交叉相似度计算,把相似度均值最高的候选实体作为最终的目标实体。实验结果表明,这种新的相似度计算方法能够有效获取实体指称项与目标实体之间的相似度,从而能够较为准确地实现特定领域的实体消歧。 汪沛 线岩团 郭剑毅 文永华 陈玮 王红斌关键词:图模型 随机游走 维基百科 主题不平衡新闻文本数据集的主题识别方法研究 被引量:5 2021年 【目的】针对传统LDA模型因新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题,提出一种在主题不平衡新闻文本数据集上的主题识别方法。【方法】该方法基于传统LDA模型,结合独立性检测、方差检测和信息熵检测三种不同的特征检测方法来识别文本的主题。【结果】在10000篇新闻文本规模的数据集上实验验证,该方法相比传统的LDA主题识别方法,查全率提高了0.2121、查准率提高了0.0407,F1值提高了0.1520。【局限】由于新闻文本中新词较多,实验中使用的分词工具的分词准确率会降低,新闻文本主题识别的效果因对分词准确率的依赖而受到影响。【结论】实验证明,所提方法能够在一定程度上解决LDA对新闻文本数据集中不同主题间文本数量不均衡导致文本主题识别不准确问题。 王红斌 王红斌 张亚飞 杨恒关键词:主题识别 基于对比学习思想的多跳问题生成 2023年 针对获取大规模的多跳问答训练数据集耗时耗力的问题,提出一个基于对比学习思想的多跳问题生成模型.模型分为生成阶段和对比学习打分阶段,生成阶段通过执行推理图生成候选多跳问题,对比学习打分阶段通过一个基于对比学习思想的无参考问题的候选问题打分模型对候选问题进行打分排序,并选择最优的候选问题.该模型在一定程度上缩小了无监督方法与人工标注方法的差距,有效缓解了缺少多跳问答数据集的问题.在数据集HotpotQA上的实验结果表明,基于对比学习的多跳问题生成模型能有效扩充训练数据,极大减少了人工标注数据的成本. 王红斌 王红斌 王灿宇融合新闻要素的跨语言新闻文本相似度计算 被引量:2 2016年 随着经济全球化程度的加深,我国与各国之间的交流、合作越来越频繁,各类大小事件的新闻报道各国各有侧重,新闻内容的匹配程度也有高低之分。传统的文本相似度方法具有计算维数过高和计算过于复杂的缺点。通过对新闻报道文本的分析发现,新闻报道具有何时、何地、何事、何因、何人五个基本因素的特点。针对这一特性,提出融合新闻要素的跨语言新闻文本相似度计算方法。该方法充分考虑到了新闻文本的五个新闻要素特征词对文本相似度的影响,有效减少了相似度低的文本干扰和传统文本相似度计算效率的问题。本文方法抽取新闻文本的新闻要素,借助翻译工具和词义消歧技术将抽取出来的不同语种的新闻要素统一为中文,并对新闻要素进行分类集合,然后利用集合相似度计算和数据融合方法来计算两篇新闻文本相似度,通过实验验证,本文方法对跨语言新闻文本相似度计算具有一定的效率和准确性,说明本文方法可行。 侯中熙 王红斌 线岩团关键词:新闻要素 跨语言 机器翻译 词义消歧 条件随机场 结合层级注意力的抽取式新闻文本自动摘要 被引量:5 2022年 由于抽取式摘要抽取句子有较强的人为判断主观性,不能准确客观评测出文章中实际每个句子对摘要的重要程度,以及每句话中每个词对句子重要程度的影响,从而影响了摘要的抽取质量。针对该问题,提出了一种结合层级注意力的抽取式新闻文本自动摘要方法。首先,该方法通过对英文新闻文本进行层级编码并依次加入词级注意力、句级注意力,得到结合层级注意力的文本表示。其次,通过神经网络构建动态打分函数并依次选择出打分函数中分值最高的候选句子作为摘要句。最后,抽取出英文新闻文本所对应的摘要。所提方法在CNN/Daily Mail、New York Times与Multi-News公共数据集上均进行了实验验证,实验结果表明所提方法的ROUGE评测值与目前最好的模型相比表现相当,ROUGE F1值较baseline分别提高了1.78、0.70与1.44个百分点。由此表明该方法在英文新闻文本抽取式摘要任务上具有泛化性与有效性,并且与现有方法相比具有一定的优越性。 王红斌 王红斌 毛存礼关键词:打分函数 基于双语LDA的跨语言文本相似度计算方法研究 被引量:7 2017年 基于双语主题模型思想分析双语文本相似性,提出基于双语LDA跨语言文本相似度计算方法。先利用双语平行语料集训练双语LDA模型,再利用该模型预测新语料集主题分布,将新语料集的双语文档映射到同一个主题向量空间,结合主题分布使用余弦相似度方法计算新语料集双语文档的相似度,使用从类别间和类别内的主题分布离散度的角度改进的主题频率-逆文档频率方法计算特征主题权重。实验表明,改进后的权重计算对于基于双语LDA相似度算法的召回率有较大提高,算法对类别不受限且有较好的可靠性。 程蔚 线岩团 周兰江 余正涛 王红斌关键词:余弦相似度 结合近邻分析的小样本命名实体识别方法 2023年 小样本命名实体识别通过少量标注样本构建可应用于未知类别的实体识别模型,是命名实体识别的新兴研究方向。小样本实体识别具有实体边界检测不准确以及训练数据数量少、可见实体类别少的特点,导致模型性能表现不佳,模型极易过拟合。针对这个问题,提出结合近邻分析的小样本命名实体识别方法,将命名实体识别任务分成实体范围检测和实体类别预测两部分完成,其中实体范围检测部分使用片段打分的方法,实体类别预测部分使用近邻分析的方法。此外,为了缓解训练数据少带来的模型过拟合问题,还在实体特征的隐空间上进行Mixup数据增强以扩增伪样本。实验结果表明,所提出的结合近邻分析的小样本命名实体识别方法有效地提高了小样本实体识别的性能。 江汀莹 线岩团 王红斌关键词:小样本 过拟合 泛化性能 基于条件随机场的泰语音节切分方法 被引量:2 2016年 音节是泰语构词和读音的基本单位,泰语音节切分对泰语词法分析、语音合成、语音识别研究具有重要意义。结合泰语音节构成特点,提出基于条件随机场(Conditional Random Fields)的泰语音节切分方法。该方法结合泰语字母类别和字母位置定义特征,采用条件随机场对泰语句子中的字母进行序列标注,实现泰语音节切分。在InterBEST2009泰语语料的基础上,标注了泰语音节切分语料。针对该语料的实验表明,该方法能有效利用字母类别和字母位置信息实现泰语音节切分,其准确率、召回率和F值分别达到了99.115%、99.284%和99.199%。 赵世瑜 线岩团 郭剑毅 余正涛 洪玄贵 王红斌关键词:条件随机场 双边非局部均值滤波图像去噪算法 被引量:16 2016年 为提高图像去噪的视觉效果,本文根据自然图像通常包含较多的重复性结构这一现象,以及双边滤波器的在图像去噪中所具有的优点,提出了一种新的基于双边滤波与非局部均值(NLM)的图像去噪算法。利用NLM思想对当前的像素灰度值进行估计。过程中,不仅考虑到了当前像素的灰度值对预测结果的影响,而且考虑到了当前像素的位置与周围像素位置之间的关系,构建了非局部邻域内的位置系数来对预测结果进行约束,最后考虑到非局部邻域内同质像素的相似性,设计了双边NLM滤波器。实验结果表明:本文算法比双边滤波算法运行时间快了0.114 s、峰值信噪比(PSNR)提高了0.9、图像相似度(MSSIM)提高了0.181,图像保真度(VIF)提高了0.214 7。本文提出的方法能够更好地保留图片信息的完整性,提高了图像的亮度和图像纹理的清晰度。 韩震 王红斌 余正涛 朱映柔关键词:图像去噪 双边滤波 非局部均值 距离加权 基于word2vec和依存分析的事件识别研究 被引量:5 2017年 如何从大量信息中获取事件已成为关注的焦点,因此事件识别也就越来越重要。传统对于事件抽取采用字典和机器学习方法,字典包含触发词数量有限,机器学习需要大量语料和众多特征。针对传统方法的不足,提出了基于词向量和依存分析的方法。该方法利用word2vec模型找到触发词的大量同义词来进行对触发词的扩展,利用依存分析可以发现词与词间的依赖性从而为分类提供特征。最后通过实验进行验证,实验结果表明,该方法是可行的,并且在事件识别和事件要素抽取方面取得了较好结果。 王红斌 郜洪奎关键词:依存分析