您的位置: 专家智库 > >

国家社会科学基金(05AYY001)

作品数:8 被引量:60H指数:4
相关作者:卢亚军贺胜才让加史晓东王正平更多>>
相关机构:西北民族大学南京师范大学青海师范大学更多>>
发文基金:国家社会科学基金国家重点基础研究发展计划江苏省社会科学基金更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 8篇中文期刊文章

领域

  • 7篇自动化与计算...
  • 1篇文化科学
  • 1篇语言文字

主题

  • 3篇语料
  • 3篇语料库
  • 3篇藏文
  • 3篇藏语
  • 3篇藏语语料库
  • 2篇信息处理
  • 2篇输入法
  • 2篇自然语言
  • 2篇分词
  • 2篇词类
  • 1篇语法
  • 1篇语法信息
  • 1篇语料库加工
  • 1篇语料库建设
  • 1篇语言处理
  • 1篇中文
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇自动分词
  • 1篇自然语言处理

机构

  • 5篇西北民族大学
  • 4篇南京师范大学
  • 3篇青海师范大学
  • 1篇厦门大学

作者

  • 5篇卢亚军
  • 4篇贺胜
  • 3篇才让加
  • 1篇史晓东
  • 1篇曲维光
  • 1篇王正平

传媒

  • 2篇图书与情报
  • 2篇计算机工程与...
  • 2篇中文信息学报
  • 1篇西北民族大学...
  • 1篇南京师范大学...

年份

  • 3篇2011
  • 1篇2009
  • 3篇2008
  • 1篇2007
8 条 记 录,以下是 1-8
排序方式:
面向大规模语料库的全文检索系统研究被引量:1
2008年
随着语料库规模的不断扩大和基于语料库的应用研究逐步拓展,对语料库的全文检索成为语料库系统中不可缺少的重要的组成部分。文章对面向大规模语料库的全文检索系统的索引模式、检索算法、检索表达式的构建、自动分词、系统组成等进行了研究,并基于大规模语料库的语言文字信息处理和应用研究的需要,开发了中文信息处理系统——"CIPP"。目前该系统具有全文检索、自动分词、语言统计等功能,在千万字数量级的语料库中,其全文平均检索时间小于1秒。
贺胜卢亚军
关键词:语料库自动分词
基于藏文编码(基本集)国家暨国际标准的藏文输入法研究被引量:2
2007年
藏文输入法是藏文信息处理领域的基础性研究课题,也是藏文信息化建设的一个瓶颈。文章论述了针对现有藏文输入法存在的问题,旨在突破由"文字"信息处理向"语言"信息处理过渡的难题,研究并开发一种基于藏文编码(基本集)国家暨国际标准和Unicode国际编码标准,以及OpenType字体技术,可在Windows Vista和Windows XP下,支持Internet上的藏文信息交换,用于文字信息处理和语言信息处理的藏文输入法的相关问题。
贺胜卢亚军
关键词:藏文信息处理输入法OPENTYPE
藏语语料库加工方法研究被引量:13
2011年
为了使藏语语料库具有规范性、统一性和实用性,提高加工的整体水平,在藏语语料库的加工过程中首先要对五花八门的藏语语料库进行整理和统一,得到高质量的原始语料库,其次确定藏语原料库加工的切分单位,针对藏语的语法特征提出藏语语料库藏语词语类别和词类标记集,同时在对藏语词语进行归类和统计的基础上建立分词标注词典库,设计并实现藏文自动分词标注软件,利用分词标注软件对大规模藏语语料库进行切分和标注,最终实现藏语语料库的多级加工。
才让加
关键词:藏语语料库词类词典
CLUCENE在语料库建设中的应用
2008年
深入分析了现有语料库的构建模式和语料库应具备的功能模块,提出基于文件系统和Clucene全文检索引擎工具包的语料库建设方案.实验证明,Clucene具有丰富的接口设计和良好的扩展性,为语料库建设提供了一种较好的技术实现方式.
贺胜曲维光卢亚军
关键词:CLUCENE语料库语料库建设
藏语语料库词语分类体系及标记集研究被引量:18
2009年
青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
才让加
关键词:计算机应用中文信息处理语料库
央金藏文分词系统被引量:30
2011年
藏文分词是藏文信息处理的一个基本步骤,该文描述了我们将一个基于HMM的汉语分词系统Segtag移植到藏文的过程,取得了91%的准确率。又在错误分析的基础上,进行了训练词性的取舍、人名识别等处理,进一步提高了准确率。
史晓东卢亚军
关键词:藏文分词自然语言处理HMM
基于IMM-IME结构的藏文输入法研究被引量:1
2008年
IMM-IME(输入法管理器-输入法编辑器)结构是Windows多语言支持的核心组件之一,为输入法的开发提供了强有力的支持.通过讨论中文Windows操作系统平台下输入法的基本工作原理,分析了中文Windows平台下基于IMM-IME结构的输入法的构成、接口、设计思想以及一些关键技术,并结合这些技术实现了基于IMM-IME结构的"央金藏文输入法".
贺胜卢亚军王正平
关键词:藏文输入法IMEIMM
藏语语料库词类描述方法研究被引量:7
2011年
藏语词类的基本属性描述是藏语语料库多级加工的基础,根据藏语语料库多级加工的实际需要,通过对藏语词类的语法、语义信息的描述和藏语词语后添加方式的分析,可以为计算机对藏文的词语搭配结构、语法信息、语义信息和词类标记进行自动处理提供一个切实可行的方法。
才让加
关键词:自然语言藏文语法信息
共1页<1>
聚类工具0