张少阳
- 作品数:3 被引量:6H指数:2
- 供职机构:沈阳航空航天大学更多>>
- 发文基金:国家科技支撑计划辽宁省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于字簇的多模型中文分词方法研究被引量:2
- 2020年
- 字标注分词方法是当前中文分词领域中一种较为有效的分词方法,但由于中文汉字本身带有语义信息,不同字在不同语境中其含义与作用不同,导致每个字的构词规律存在差异。针对这一问题,提出了一种基于字簇的多模型中文分词方法,首先对每个字进行建模,然后对学习出的模型参数进行聚类分析形成字簇,最后基于字簇重新训练模型参数。实验结果表明,该方法能够有效地发现具有相同或相近构词规律的字簇,很好地区别了同类特征对不同字的作用程度。
- 李对红王裴岩张桂平张少阳
- 关键词:中文分词构词规律模型参数聚类
- 领域自适应中文分词系统的研究与实现
- 中文分词是指将连续的字序列依照特定的规范切分为合理的词序列的过程。作为自然语言处理最基本的一个步骤,是信息检索、知识获取以及机器翻译等应用必须处理的关键环节。因此,研究中文分词具有重要的理论和现实意义。本文提出了一种基于...
- 张少阳
- 关键词:中文分词领域自适应
- 文献传递
- 一种基于字的多模型中文分词方法被引量:4
- 2017年
- 字标注的分词方法是当前中文分词领域中一种较为有效的分词方法。但由于中文汉字本身带有语义信息,不同的字在不同语境中其含义与作用不同,导致与上下文的相关性不同,每个字的构词规律存在差异。针对这一问题,提出了一种多模型的分词方法。该方法对每个字单独建立模型,能够有效区分每个特征对不同待切分字的影响,从而学习出每个字的特殊构词规律。由于向量化的特征表示能够有效地解决特征稀疏问题,采用特征向量化来表示输入特征。实验结果表明,该方法是一种有效的中文分词方法,很好地区分出了同类特征对于不同字的作用程度,充分体现了每个字的构词规律。
- 张少阳王裴岩蔡东风
- 关键词:中文分词