您的位置: 专家智库 > >

谌贻荣

作品数:7 被引量:52H指数:3
供职机构:北京大学更多>>
发文基金:国家重点基础研究发展计划教育部人文社会科学重点研究基地度重大研究项目国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 3篇期刊文章
  • 3篇会议论文
  • 1篇学位论文

领域

  • 6篇自动化与计算...
  • 3篇语言文字

主题

  • 2篇中文核心
  • 2篇领域本体
  • 2篇领域本体构建
  • 2篇本体
  • 2篇本体构建
  • 1篇对齐
  • 1篇信息处理
  • 1篇信息熵
  • 1篇语料
  • 1篇双语对齐
  • 1篇人工智能
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇自动抽取
  • 1篇自动提取技术
  • 1篇领域性
  • 1篇机器翻译
  • 1篇计算机
  • 1篇计算机应用

机构

  • 5篇北京大学
  • 2篇香港理工大学

作者

  • 7篇谌贻荣
  • 2篇李文捷
  • 2篇崔高颖
  • 2篇常宝宝
  • 2篇陆勤
  • 1篇张秦龙
  • 1篇陈龙
  • 1篇姜柄圭
  • 1篇詹卫东
  • 1篇郭锐

传媒

  • 2篇中文信息学报
  • 1篇语料库语言学
  • 1篇全国第八届计...
  • 1篇全国第八届计...

年份

  • 1篇2019
  • 1篇2010
  • 1篇2009
  • 1篇2007
  • 3篇2005
7 条 记 录,以下是 1-7
排序方式:
内部紧密度和边缘自由度相结合的符号串单元度计算
当今社会,新词层出不穷,自动词语提取日益变得重要.本文提出了一种基于内外部信息的词语单元度计算公式.该方法利用词串每个符号之间的内部节点的结合紧密度以及边界的左右两个节点的边界使用自由度来估算词语的单元度.实验表明该算法...
谌贻荣
文献传递
内部紧密度和边缘自由度相结合的符号串单元度计算
当今社会,新词层出不穷,自动词语提取日益变得重要。本文提出了一种基于内外部信息的词语单元度计算公式。该方法利用词串每个符号之间的内部节点的结合紧密度以及边界的左右两个节点的边界使用自由度来估算词语的单元度。实验表明该算法...
谌贻荣
文献传递
北京大学CCL语料库的研制被引量:33
2019年
北京大学中国语言学研究中心CCL语料库是面向语言学本体研究和语言教学的大规模语料库,目前包括现代汉语、古代汉语和汉英句对齐平行语料,规模超过7亿汉字。CCL语料库检索系统以包括汉字、字母、标点等在内的字符为基本索引单位,提供普通查询、批量查询、模式查询等多种检索方式。同时该系统支持限定范围查询、基于复杂检索表达式的查询、统计模式频次、对查询结果进行排序、下载查询结果等功能。本文介绍CCL语料库的建设情况与主要功能,具体涉及语料分布概况、语料库查询功能和使用方式、语料库索引与检索技术架构等。
詹卫东郭锐常宝宝谌贻荣陈龙
面向机器辅助翻译的汉语语块自动抽取研究被引量:13
2007年
本文提出了一种统计和规则相结合的语块抽取方法。本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取得了令人满意的结果。通过实验发现,在统计方法中互信息和信息熵相结合的方法较单一的互信息方法好;在语块边界规则过滤方法中语块左右边界规则和停用词对语块抽取的结果有较大影响。实验结果表明统计和过滤规则相结合的方法要优于纯粹的统计方法。应用本文方法,再辅以人工校对,可以方便地获取重复出现的多词语块。在机器辅助翻译系统中,使用现有的语块抽取方法抽取重复的语言单位,就可以方便地建设翻译记忆库,提高翻译的工作效率。
姜柄圭张秦龙谌贻荣常宝宝
关键词:人工智能机器翻译串频统计信息熵
中文核心领域本体构建的一种改进方法被引量:5
2010年
核心本体对最基本的领域知识建模,并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文提出的改进方法首先找到共享后缀术语集内被共享的术语条数更多、与各术语的意义更接近的上位概念;然后用其来改进词集中的核心术语和概念之间的映射。实验证明,该方法有效的提高了核心本体自动创建的精确度。
谌贻荣陆勤李文捷崔高颖
关键词:计算机应用中文信息处理本体构建领域本体
单元度和领域性相结合的中文术语自动提取技术研究
术语是为有效表达领域知识而产生的词语单元,其计算至少分为单元度(指一个符号串作为词语出现的可能性的度量)的计算和领域性的计算两方面。 本论文重点研究单元度的计算方法,该方法不仅适用于术语提取,对于新词、新语的获...
谌贻荣
关键词:自动提取技术
一种基于共享后缀术语集改进中文核心领域本体构建的方法
核心本体对最基本的领域知识建模并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文以一个基于术语词集抽取共享后...
谌贻荣陆勤李文捷崔高颖
关键词:领域本体
文献传递
共1页<1>
聚类工具0