福建省社会科学规划项目(2006B086)
- 作品数:2 被引量:28H指数:2
- 相关作者:郑泽芝更多>>
- 相关机构:厦门大学更多>>
- 发文基金:福建省社会科学规划项目更多>>
- 相关领域:语言文字自动化与计算机技术更多>>
- 一种字母词语自动标注算法被引量:2
- 2007年
- 自动分词是中文信息处理的基础,而未登录词识别是影响分词系统准确率的最主要的因素.字母词语作为中文信息处理中的一类未登录词语,现有的分词软件仍不能有效识别.为此设计了一个规则+统计的自动标注算法,该算法首先对原文本进行扫描,依据字母串正则表达式取得合法的字母串;再以字母串为锚点,往两边扫描,依次调用前后界规则、汉字组成成分规则、例外校正规则,结合搭配概率矩阵对字母词语进行识别和标注.实验结果表明:该算法的召回率为100%,准确率约为92%.该算法不仅对中文自动分词有益,而且所开发的软件可用于建设字母词语知识库和对字母词语语言现象的考察研究.
- 郑泽芝
- 关键词:字母词语
- 字母词语跟踪研究被引量:27
- 2009年
- 基于对2002年(网络版)《人民日报》《北京青年报》《羊城晚报》全年一亿多字文本语料中字母词语的计算机辅助考察,文章首先从不同的角度对字母词语共时状态进行了客观描述;为了跟踪考察字母词语在汉语中发展变化的情况,我们选择了比较注重语言文字应用规范的全国性报纸《人民日报》,对其2002年、2005年、2006年(网络版)三年的文本语料进行了跟踪考察和量化分析;基于对大规模真实文本的考察结果,文章对汉语字母词语的使用范围、稳定性、用法等状况进行了探讨,并据此给出了对字母词语的一些思考和建议。
- 郑泽芝
- 关键词:字母词语共时