谌贻荣
- 作品数:7 被引量:52H指数:3
- 供职机构:北京大学更多>>
- 发文基金:国家重点基础研究发展计划教育部人文社会科学重点研究基地度重大研究项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 内部紧密度和边缘自由度相结合的符号串单元度计算
- 当今社会,新词层出不穷,自动词语提取日益变得重要.本文提出了一种基于内外部信息的词语单元度计算公式.该方法利用词串每个符号之间的内部节点的结合紧密度以及边界的左右两个节点的边界使用自由度来估算词语的单元度.实验表明该算法...
- 谌贻荣
- 文献传递
- 内部紧密度和边缘自由度相结合的符号串单元度计算
- 当今社会,新词层出不穷,自动词语提取日益变得重要。本文提出了一种基于内外部信息的词语单元度计算公式。该方法利用词串每个符号之间的内部节点的结合紧密度以及边界的左右两个节点的边界使用自由度来估算词语的单元度。实验表明该算法...
- 谌贻荣
- 文献传递
- 北京大学CCL语料库的研制被引量:33
- 2019年
- 北京大学中国语言学研究中心CCL语料库是面向语言学本体研究和语言教学的大规模语料库,目前包括现代汉语、古代汉语和汉英句对齐平行语料,规模超过7亿汉字。CCL语料库检索系统以包括汉字、字母、标点等在内的字符为基本索引单位,提供普通查询、批量查询、模式查询等多种检索方式。同时该系统支持限定范围查询、基于复杂检索表达式的查询、统计模式频次、对查询结果进行排序、下载查询结果等功能。本文介绍CCL语料库的建设情况与主要功能,具体涉及语料分布概况、语料库查询功能和使用方式、语料库索引与检索技术架构等。
- 詹卫东郭锐常宝宝谌贻荣陈龙
- 面向机器辅助翻译的汉语语块自动抽取研究被引量:13
- 2007年
- 本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。
- 姜柄圭张秦龙谌贻荣常宝宝
- 关键词:人工智能机器翻译串频统计信息熵
- 中文核心领域本体构建的一种改进方法被引量:5
- 2010年
- 核心本体对最基本的领域知识建模,并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文提出的改进方法首先找到共享后缀术语集内被共享的术语条数更多、与各术语的意义更接近的上位概念;然后用其来改进词集中的核心术语和概念之间的映射。实验证明,该方法有效的提高了核心本体自动创建的精确度。
- 谌贻荣陆勤李文捷崔高颖
- 关键词:计算机应用中文信息处理本体构建领域本体
- 单元度和领域性相结合的中文术语自动提取技术研究
- 术语是为有效表达领域知识而产生的词语单元,其计算至少分为单元度(指一个符号串作为词语出现的可能性的度量)的计算和领域性的计算两方面。
本论文重点研究单元度的计算方法,该方法不仅适用于术语提取,对于新词、新语的获...
- 谌贻荣
- 关键词:自动提取技术
- 一种基于共享后缀术语集改进中文核心领域本体构建的方法
- 核心本体对最基本的领域知识建模并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文以一个基于术语词集抽取共享后...
- 谌贻荣陆勤李文捷崔高颖
- 关键词:领域本体
- 文献传递