唐建
- 作品数:4 被引量:7H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 图像标题生成中的人物类名实体填充方法研究
- 2019年
- 得益于深度学习的发展和大规模图像标注数据集的出现,图像标题生成作为一种结合了计算机视觉和自然语言处理的综合任务得到了广泛关注。受到神经机器翻译任务的启发,前人将图像标题生成任务看作是一种特殊的翻译任务,即将一张图像视作源端的信息表述,通过编码解码过程,翻译为目标端的自然语言语句。因此,现有研究引入了端到端的神经网络模型,并取得了较好的生成效果。然而,图像标题生成研究依然面临许多挑战,其中最值得关注的难点之一是解决确切性文字表述的问题。一条确切的标题往往是有形且具体的表述,例如“梅西主罚点球”,而目前机器生成的标题则较为粗浅和单调,例如“一个人在踢球”。针对这一问题,该文尝试开展标题生成的有形化研究,并在前瞻性实验中聚焦于标题中人名实体的识别与填充。在技术层面,该文将机器自动生成的图像标题作为处理对象,去除其中抽象人名实体的名称(例如,一个人、男人和他等)或错误的称谓,并将由此形成的带有句法空缺的表述视作完型填空题目,从而引入了以Who问题为目标的阅读理解技术。具体地,该文利用R-NET阅读理解模型实现标题中人名实体的抽取与填充。此外,该文尝试基于图像所在文本的局部信息和外部链接的全局信息,对人名实体进行抽取。实验结果表明,该方法有效提高了图像标题的生成质量,BLEU值相应提升了2.93%;实验结果也显示,利用全局信息有利于发现和填充正确的人名实体。
- 张家硕洪宇唐建程梦姚建民
- 面向属性抽取的门控动态注意力机制被引量:4
- 2019年
- 在现阶段属性抽取研究中,现有注意力建模及训练较刚性(单句一次成型),而单句中不同词汇的上下文存在语境语义的差异,一致的注意力分布缺少动态的适应性.因此,文中提出面向属性抽取的门控动态注意力机制,利用双向长短时记忆网络捕获目标句中每个单词的隐层表示.在注意力模型处理词一级属性预测时,根据目标词及其上下文,计算适应该目标词的注意力分布向量,可以根据上下文的变化自动调整注意力权重的分配.借助门控调整注意力向量流向下一层神经元的信息量,最终使用条件随机场进行属性标记.应用2014-2016语义评估官方数据集验证文中方法的有效性,F1值均有所提高.
- 程梦洪宇唐建张家硕邹博伟姚建民
- 关键词:属性抽取条件随机场情感分析
- 面向专题检测的主题与社群联合聚类模型被引量:3
- 2017年
- 专题检测旨在从大规模文本数据中自动聚类同一主题的相关文本,当前研究主要聚焦于层次聚类与密度聚类等聚类算法框架的分析与应用,在专题内容的分析与表示方面缺乏深入探索。通过对专题颗粒度的分析,提出了一种新型主题与社群联合聚类模型。该模型通过主题一致性辨识内容相关的文本,并借助文本中的命名实体社群,进一步细分内容相关的文本聚类,从而避免大规模文本中"事同人不同"的类似专题错误合并。最后,借助该模型在专题检测的层次和粒度上进一步求精,在搜狐人工标记的69项专题万余篇文档上进行专题检测测试。试验结果表明,该模型聚类纯度高于82%,具有实用价值。
- 熊玲周文瑄唐建洪宇
- 关键词:层次聚类
- 融合图片主题信息的图片描述翻译
- 2019年
- 图片描述翻译是给定图片及图片在某一语言的描述,利用翻译技术为图片生成目标语言描述的任务。观察发现,不同图片表达的场景往往不同,对应的图片描述具有明显的主题差异性。因此,利用主题信息能够提升翻译效果。然而,图片描述的内容通常较短,无法有效反映其主题。针对该问题,该文提出了一种融合图片主题信息的图片描述翻译方法。对于任意的图片描述对,该方法首先借助相似图片检索技术从维基百科图片库中检索与源图片相似的目标图片,进而利用包含目标图片的文档学习源图片的主题表示。最终,利用训练集中所有图片描述对的主题表示重新学习并获取适应主题的翻译模型。实验结果表明,借助相似图片获取信息量更为丰富的描述文本,并利用文本的主题信息强化翻译模型的方法,能够提高现有统计机器翻译系统的性能,在WMT16测试集上进行的评测显示,翻译质量的BLEU值提升了0.74个百分点。
- 唐建洪宇刘梦眙姚亮姚建民
- 关键词:图片检索