肖航
- 作品数:35 被引量:156H指数:8
- 供职机构:语言文字应用研究所更多>>
- 发文基金:国家社会科学基金国家语委科研项目国家高技术研究发展计划更多>>
- 相关领域:语言文字文化科学自动化与计算机技术医药卫生更多>>
- 《信息处理用现代汉语词类标记规范》修订方案被引量:1
- 2019年
- 《信息处理用现代汉语词类标记规范》的研制顺应了语言资源建设和信息处理研究的需要,颁布实施后为语料库和信息处理系统词类标记的规范化起到了基础性和参照性作用,但随着理论研究和应用实践的发展,其局限也日益凸显。本文在总结规范修订前期工作的基础上,对修订思路和修订策略进行阐述,提出了拟通过规范修订解决的主要问题,并说明了拟修订调整的内容要点。本文认为,本着积极稳妥、吸收包容的原则,反映词类研究的新成果,体现语言资源建设的新实践,满足语言信息处理研究的新需要,处理好词类体系、词类划分、标记代码三者关系,处理好兼类标注问题,适当调整大类和小类,是制定修订方案的重点。
- 杨丽姣肖航刘智颖
- 关键词:词类词类标注
- 语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》被引量:14
- 2003年
- 本文就制定《信息处理用现代汉语词类标记集规范》阐述我们对于规范问题的看法和做法。规范不是强制的 ,只规范加工结果 ,不规范加工过程。《规范》研制的目的在于为中文信息处理研究提供一套可以作为国家规范的现代汉语词类标记集体系 ,以便各个中文信息处理系统能够使用规范统一的词类标记集。这个《规范》试图解决词类标记的统一问题 ,该《规范》的特点是 :继承性 ,单功能性 ,通用性和可扩充性。本文还主要讨论了关于研制规范的一些原则性问题和小类标记问题 ,最后给出基于《规范》的词性标注在真实语料中的覆盖实验数据。
- 靳光瑾郭曙纶肖航章云帆
- 关键词:语料库
- 中国语言文字使用情况调查数据汇总统计中的几个问题
- 本文提出了中国语言文字使用情况调查数据汇总统计中的几个问题:1、小概率(偶然性)数据的问题;2、域内样本和域外样本;3、统计前的数据自校验;4、多级多分类统计带来的样本量过小的间题;5、部分使用人数少的少数民族语言在本次...
- 肖航
- 关键词:语言文字
- 语料库与社会语言学研究方法被引量:11
- 2012年
- 语料库和语料库方法的出现对社会语言学书面语研究起到了重要的促进作用,用语料库进行社会语言学研究还有很多改进的空间。利用国家语委语料库检验134个汉语音译词的变化情况得到的结果说明,这些汉语音译词被汉语固有词代替的结论基本上符合现代汉语的语料实际,这表明语料库方法对社会语言学的语言变化趋势分析具有重要作用,而119个音译词查不到频次说明语料库存在不足之处。建设社会语言学需要的语料库,就要全面了解语料库的作用以及对语料库的需求。社会语言学研究所需要的语料库除了具有一般语料库所具有的特点外,还应该包含丰富完整的社会语言学信息,其中部分信息应该通过标注手段获得。有了好的语料库,利用语料库和语料库方法研究社会语言学,将会进一步推动社会语言学研究中定量研究与定性研究的完美结合。
- 苏金智肖航
- 关键词:语料库社会语言学方法论
- 信息处理用现代汉语词类标记规范(修订)
- 前言本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。本标准由教育部语言文字信息管理司提出立项;由国家语言文字工作委员会语言文字规范(标准)审定委员会审定;由教育部、国家语言文字工作委员会发布实施。本规范起草单...
- 靳光瑾肖航富丽
- 文献传递
- 信息处理用现代汉语词类标记规范
- 本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。 本标准适用于汉语信息处理,也可供现代汉语教学与研究参考。
- 靳光瑾肖航郭曙伦富丽章云帆于桂英陈玉泉王立
- 关键词:数据传输中文代码语言
- 文献传递
- 《信息处理用现代汉语词类标记规范》修订研究被引量:1
- 2021年
- 《信息处理用现代汉语词类标记规范》是汉语语言信息处理和语料库建设中关于词类划分和标注的重要参考标准。本次修订的核心内容有两项:一是以完善规范和满足应用需要为导向,对基本词类、其他切分单位及其小类进行了修订,提升了规范的严谨性和适用性;二是提出了词类标记的组合应用原则,规定非词切分单位可以在类属标记之外,组合附加词类标记代码,以更全面准确地标注其语法功能。规范修订审慎处理了词类体系、词类划分、标记代码三者关系,为词与非词切分单位的语法功能标注提供了更科学合理的方案,提升了规范的科学性、实用性和可操作性。
- 杨丽姣肖航刘智颖
- 关键词:词类词类标注
- 词典多义词义项关系与词义区分被引量:7
- 2010年
- 从为语料库标注多义词词义的实践来看,词典普遍存在词义可区分性不足的情况。根据对《现代汉语词典》的分析,本文认为词典中多义词的义项之间存在重叠、相离、包含等关系,这些关系对词义的准确区分带来不利影响,具体表现为词义区分线索不足、义项缺失等形式,降低了词义区分的准确率和可操作性。本文结合词义标注语料数据对这些表现分别进行了分析,指出厘清多义词义项之间的关系、改善词义可区分性能够提高词义消歧的准确率,同时有助于提高词典编纂的质量。
- 肖航
- 关键词:义项划分词义标注多义词语料库
- 关于现行盲文标调问题的调查研究被引量:5
- 2012年
- 标调规则的主观性使得现行盲文一直处在初级形态。通过对9所盲校200名初高中盲生和40名教师的问卷调查发现,教师和学生对现行盲文标调情况,对读音、词义猜谜的总体评价基本处于"一般"状态。8年级与其他各年级对读音猜谜的评价有显著差异,11年级与其他各年级对词义猜谜的评价有显著差异。北方方言区盲生对读音、词义猜谜的评价都显著低于南方方言区盲生。增加标调率有很高的呼声,尤其是"生僻词"。学生、教师对未来标调率的期望高度一致地集中于42%上下。希望通过简写能够解决标调与篇幅增加的矛盾。
- 钟经华张海丛韩萍肖航戴红亮
- 关键词:现行盲文标调
- 现行盲文符号兼用歧义问题分析及对策被引量:5
- 2016年
- 现行盲文符号兼用存在有歧义和无歧义两种情况。无歧义的符号兼用有效节约了盲符资源。有歧义符号兼用主要表现为六种类型,大部分都需要阅读时根据语境消解歧义,给盲文使用者和盲文信息处理带来了明显的障碍。全面认识现行盲文符号兼用歧义问题,加强定量和定性研究,通过修订标准明确规则,可以减少盲文方案自身的歧义性,提升表义准确性,有助于盲人学习文化并促进盲文的信息化。
- 肖航
- 关键词:盲文歧义语料库