张化瑞
- 作品数:7 被引量:50H指数:2
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字理学更多>>
- 《汉语高频词语法信息词典》的研制被引量:4
- 2004年
- 北京大学计算语言学研究所自 2 0 0 3年 1月起承担了国家重点基础研究973项目《汉语高频词语法信息词典》的研制任务 ,至 2 0 0 3年 9月已完成。本文详细介绍《汉语高频词语法信息词典》
- 朱学锋张化瑞段慧明俞士汶
- 关键词:综合型语言知识库
- 大型电子词典的计算机辅助管理
- 大型电子词典的研制开发、可能需要较长的时间和不断的修订.如何有效地维护各个版本之间的数据一致性就成为一个很关键的问题。本文通过对数据进行自动比较,以直观的方式显示其变化情况,使校对者能够把注意力集中在发生了变化的部分,工...
- 张化瑞俞士汶朱学锋
- 关键词:电子词典辅助管理计算词典学
- 文献传递
- 从实际应用看GoogleTM语言模型的缺陷
- 在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同。一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内...
- 张化瑞
- 关键词:标点符号外部链接
- 文献传递
- 以均根匀度为中心的语言信息计量研究
- 频度、匀度和信息熵是语言的计量研究中极为重要的指标,本文对均方匀度、熵匀度和均根匀度进行了系统的比较研究,并针对均根匀度进行了深入的探索,得到了二元均根匀度和多元均根匀度的合理定义、基于相似度的熵和基于隶属度的熵,并以均...
- 张化瑞
- 以词义为主轴的综合型语言知识库
- 北京大学计算语言学研究所已经积累了一系列规模大、质量上乘的语言数据资源。不过,以往这些语言数据资源彼此是独立存在的。2004年,开始把这些语言数据资源集成到一起,目标是建设综合型语言知识库。本文提出“以词义为主轴”的决策...
- 俞士汶朱学锋段慧明张化瑞
- 关键词:计算语言学自然语言处理综合型语言知识库
- 文献传递
- 从实际应用看GoogleTM语言模型的缺陷
- 在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内...
- 张化瑞
- 关键词:文字处理文档分析语言模型数理语言学
- 文献传递
- 综合型语言知识库的建设与利用被引量:46
- 2004年
- 语言知识库的规模和质量决定了自然语言处理系统的成败。经过 18年的努力 ,北京大学计算语言学研究所已经积累了一系列颇具规模、质量上乘的语言数据资源 :现代汉语语法信息词典 ,大规模基本标注语料库 ,现代汉语语义词典 ,中文概念词典 ,不同单位对齐的双语语料库 ,多个专业领域的术语库 ,现代汉语短语结构规则库 ,中国古代诗词语料库等等。本项研究将把这些语言数据资源集成为一个综合型的语言知识库。集成不同的语言数据资源时 ,必须克服它们之间的“缝隙”。规划中的综合型语言知识库除了有统一的友好的使用界面和方便的应用程序接口外 ,还将提供支持知识挖掘的工具软件 ,促使现有的语言数据资源从初级产品形式向深加工产品形式不断发展 ;提供多种形式的知识传播和信息服务机制 ,让综合型语言知识库为语言信息处理研究、语言学本体研究和语言教学提供全方位的。
- 俞士汶段慧明朱学锋张化瑞
- 关键词:中文信息处理语言处理语言知识库电子词典语料库