福建省自然科学基金(2010J01351) 作品数:5 被引量:28 H指数:3 相关作者: 陈锦秀 张开旭 周昌乐 苏松志 王丽 更多>> 相关机构: 厦门大学 华侨大学 更多>> 发文基金: 福建省自然科学基金 国家自然科学基金 教育部留学回国人员科研启动基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于自动编码器的中文词汇特征无监督学习 被引量:20 2013年 大规模未标注语料中蕴含了丰富的词汇信息,有助于提高中文分词词性标注模型效果。该文从未标注语料中抽取词汇的分布信息,表示为高维向量,进一步使用自动编码器神经网络,无监督地学习对高维向量的编码算法,最终得到可直接用于分词词性标注模型的低维特征表示。在宾州中文树库5.0数据集上的实验表明,所得到的词汇特征对分词词性标注模型效果有较大帮助,在词性标注上优于主成分分析与k均值聚类结合的无监督特征学习方法。 张开旭 周昌乐关键词:中文分词 词性标注 基于语言模型及循环卷积神经网络的事件检测 被引量:4 2019年 目前,事件检测的难点在于一词多义和多事件句的检测.为了解决这些问题,提出了一个新的基于语言模型的带注意力机制的循环卷积神经网络模型(recurrent and convolutional neural network with attention based on language models,LM-ARCNN).该模型利用语言模型计算输入句子的词向量,将句子的词向量输入长短期记忆网络获取句子级别的特征,并使用注意力机制捕获句子级别特征中与触发词相关性高的特征,最后将这两部分的特征输入到包含多个最大值池化层的卷积神经网络,提取更多上下文有效组块.在ACE2005英文语料库上进行实验,结果表明,该模型的 F 1 值为74.4%,比现有最优的文本嵌入增强模型(DEEB)高0.4%. 施喆尔 陈锦秀行人检测:路在何方? 2013年 行人检测是目标检测中的难点和热点问题,目前已取得了较好进展,但离实用化还有一定距离。本文在对影响行人检测的各个因素综合分析的基础上,针对实用化指出其未来的发展趋势。 王丽 苏松志 陈锦秀关键词:行人检测 目标检测 计算机视觉 基于混合树结构神经网络的隐式篇章关系识别 2017年 隐式篇章关系识别的主要挑战是如何表示两个文本单元的语义信息.由于句子的语义信息往往由语法树中的信息焦点(谓词部分)所决定,所以关注信息焦点可以提升篇章关系识别的效果.为了增强信息焦点的作用,引入树状长短时记忆(tree-structured long short-term memory,Tree-LSTM)网络,使用其遗忘门的特性区别对待不同孩子节点的信息.最后利用神经张量网络(neural tensor network,NTN)来计算两个句子语义向量之间的关系.基于PDTB2.0(Penn Discourse Treebank)语料数据进行实验,实验结果表明混合树结构神经网络比传统的RNN模型在大部分关系中的Fscore上提高了3.0%左右. 郑江龙 陈锦秀关键词:信息焦点 基于组合特征的自训练隐式篇章关系的识别技术 被引量:4 2014年 信息抽取技术中,隐式篇章关系识别一直是研究难点.针对现有的有监督篇章关系识别方法中需要大量人工标注数据的缺点,提出了用自训练的策略实现半监督的隐式篇章关系的自动识别模型,尝试仅用少量标注样本,却获得和有监督方法相媲美的识别准确率,为未来实时大数据篇章关系识别提供了新的契机.此外,为了进一步提高识别的准确率,还针对词对特征、产生式特征、动词特征等9种篇章关系特征进行特征组合分析,构建候选篇章关系实例的知识表示,对模型进行优化.通过在Penn Discourse Treebank(PDTB2.0)语料库上的实验结果分析表明,该模型比传统有监督识别方法在准确率和F-score上分别提高了5.2%和13.5%. 刘初 陈锦秀关键词:半监督学习