李斌
- 作品数:90 被引量:359H指数:13
- 供职机构:南京师范大学文学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金江苏省社会科学基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字文学更多>>
- 面向自动句法分析的现代汉语'V+V'结构歧义研究
- 词类知识的粗糙和不完备是影响自动句法分析的一个重要因素.本文以'V+V'结构序列为切入点,彻底按照词的句法功能对动词进行分类,句法功能完全相同才给以相同的标记.这样可以把同形异构格式转换为非同形格式,便于确定其内部的结构...
- 徐艳华陈小荷李斌陈钟
- 关键词:词类句法歧义歧义消解
- 文献传递
- 基于中文AMR语料库的非投影结构研究被引量:2
- 2018年
- 非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。
- 闻媛宋丽吴泰中李斌周俊生曲维光
- 关键词:语义分析中文信息处理
- 基于关系对齐的汉语虚词抽象语义表示与分析
- 虚词具有丰富的语法意义,对句子理解起着不可或缺的作用.虚词的语言学研究成果丰富,但缺乏形式化表示,无法直接被计算机利用.为了表示虚词的句法语义信息,首先在抽象语义表示(AMR)这种基于概念图的语义表示方法的基础上,增加了...
- 戴玉玲李斌戴茹冰冯敏萱曲维光
- 关键词:汉语虚词
- 细颗粒度汽车评论语料库的构建和分析被引量:2
- 2020年
- 产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性"三要素",影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9343句汽车评论短文本,不仅人工标注了"三要素"的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建"三要素"齐全标注体系的必要性;基于该语料库的"三要素"自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。
- 曹紫琰冯敏萱毛雪芬程宁宋阳李斌
- 关键词:情感分析语料库
- 基于特征融合的汉语被动句自动识别研究
- 2024年
- 汉语中的被动句根据有无被动标记词可分为有标记被动句和无标记被动句。由于其形态构成复杂多样,给自然语言理解带来很大困难,因此实现汉语被动句的自动识别对自然语言处理下游任务具有重要意义。该文构建了一个被动句语料库,提出了一个融合词性和动词论元框架信息的PC-BERT-CNN模型,对汉语被动句进行自动识别。实验结果表明,该文提出的模型能够准确地识别汉语被动句,其中有标记被动句识别F1值达到98.77%,无标记被动句识别F1值达到96.72%。
- 胡康曲维光曲维光魏庭新李斌李斌
- 关键词:汉语被动句自动识别语料库
- 面向中文AMR标注体系的兼语语料库构建及兼语结构识别被引量:1
- 2021年
- 兼语结构是汉语中常见的一种动词结构,由述宾短语与主谓短语共享兼语,结构复杂,给句法分析造成困难,因此兼语识别工作对于语义解析及下游任务都具有重要意义。但现存兼语语料库较少,面向中文抽象语义表示(AMR)标注体系的兼语语料库构建仍处于空白阶段。针对这一现状,该文总结出一套兼语语料库标注规范,构建了包含4760个兼语句的面向中文AMR标注体系的兼语语料库。基于构建的语料库,采用LA-BiLSTM-CRF模型识别兼语结构,达到了86.06%的F1,并分析了识别结果,提出了改进方向。
- 侯文惠曲维光魏庭新魏庭新李斌顾彦慧
- 关键词:兼语结构
- 基于抽象语义表示的汉语构式标注与分析被引量:3
- 2020年
- 构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。
- 黄彤李斌闫培艺戴玉玲曲维光
- 关键词:构式形式化表示中文信息处理
- 面向中文陌生文本的人机交互式分词方法
- 本文提出了面向中文陌生文本的人机交互式分词方法,在没有分词底表和训练语料等语言知识的条件下,由系统自动地发现未登录词,提交给用户进行增删,不断重复此过程,反复获取文本中的词语,最后进行最大匹配法分词.四个不同语料的实验显...
- 李斌陈小荷
- 关键词:人机交互自动分词未登录词识别中文信息处理
- 文献传递
- 基于组合神经网络的语义省略“的”字结构识别被引量:1
- 2019年
- 针对语义省略"的"字结构识别任务,提出一种基于组合神经网络的识别方法。利用词语和词性,通过双向LSTM (long short-term memory)神经网络,学习"的"字结构深层次的语义语法表示。通过Max-pooling层和基于GRU (gatedrecurrentunit)的多注意力层,捕获"的"字结构的省略特征,完成语义省略"的"字结构识别任务。实验结果表明,所提模型在CTB8.0 (ChineseTreebank 8.0)语料中,能够有效地识别语义省略的"的"字结构, F1值达到96.67%。
- 侍冰清戴茹冰曲维光顾彦慧周俊生李斌徐戈史胜旺
- 关键词:神经网络
- 面向先秦典籍的历史事件基本实体构件自动识别研究被引量:22
- 2018年
- 结合数字人文的数据获取、标注和分析方法,识别和挖掘先秦典籍中历史事件基本实体构件具有重要的推广和使用价值。本文将先秦时期极具代表性的《公羊传》《谷梁传》《左氏春秋》《吕氏春秋》《晏子春秋》等作为处理语料,对其中的人名、地名、时间实体等进行内部数量统计和外部特征分析,构建特征模板。在已有的465,197个词汇的基础上进行实体抽取训练与测试,选出人名、地名、时间实体识别效果的调和平均数最大(87.37%)的模型,并将其应用于《国语》语料以便检验识别效果,同时将以上过程进行可视化展现。
- 王东波高瑞卿沈思李斌
- 关键词:条件随机场