姚天顺
- 作品数:129 被引量:1,206H指数:21
- 供职机构:东北大学自然语言处理实验室更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字电子电信文化科学更多>>
- 基于文本句法的文本生成模型
- 1995年
- 本文引用语言学及符号学理论,综合自然语言文本生成所涉及的知识,构造了计算机文本生成的理论模型;探讨文本句法中的微观整合性和宏观整合性以及它们对文本生成的作用。这个以文本结构模型和文本意义模型为主体的文本生成理论框架,为进一步的计算机语言生成研究提供了方法依据。
- 张晓龙姚天顺
- 关键词:语义分析自然语言理解符号学计算机
- 一个从中间语言生成目标语言的原理和方法被引量:7
- 1994年
- 本文介绍了我们的汉英机器翻译系统(CETRAN)中一种从中间语言生成英语的生成系统,讨论了从中间语言留到目标语言转换的基本原理.目的在于通过解决汉英之间语法和语义方面的差异,得到高质量的机译结果.文中还介绍了基于语义驱动的由中间语生成英文目标语的计算机实现算法.为了说明清楚,整个叙述都注意列举了一些实例.
- 卞世力姚天顺金鸿
- 关键词:机器翻译中间语言目标语言
- 基于Stacking算法的组合分类器及其应用于中文组块分析被引量:26
- 2005年
- 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.
- 李珩朱靖波姚天顺
- 关键词:叠加式多分类器
- 文本结构分析与基于示例的文本过滤被引量:39
- 2000年
- 本文简要介绍了文本过滤的背景和发展 ,提出了基于示例的中文文本过滤模型 .其基本思想是首先对于用户提出的示例文本进行文本结构分析 ,采用本文提出的文本层次分析方法 ,提取文本特征 ,形成主题词表示的用户模版 (user profile) ,然后进行文本过滤 ,同时引进段落匹配机制 ,提高过滤效率 .通过用户反馈 。
- 林鸿飞战学刚姚天顺
- 关键词:文本过滤文本结构分析信息过滤
- 基于结合性自动识别中文姓名被引量:14
- 1997年
- 汉字分词系统中,姓名的识别一直是一个比较难处理的部分。本文以姓名和其前后语料的结合性为突破口,在分词预处理中将姓名加以标识。对新华社语料测试的结果令人满意,而且系统还具有独特的开放性和自我学习功能。
- 张跃姚天顺
- 关键词:分词中文姓名识别自动识别中文信息处理
- 面向数据的句法分析技术被引量:14
- 1998年
- 面向数据的分析技术(Data-OrientedParsing,DOP)首先由Scha(1990)年提出。该处理技术具体表达了这样的假设:人类对语言的领悟和创造依赖于以往具体的语言经验,而不是依赖于抽象的语法规则。DOP技术框架可以分为:(1)建立包括以往成功分析的语言经验的标注语料库;(2)从语料库中抽取片段单元来构造新语言的分析过程;(3)计算分析过程的概率。DOP模型建立在包含大量语言现象的语料库基础上,把经过标注的语料库看作一个语法(Grammar)。当输入一个新的语言现象时,系统通过对语料库中片段单元的组合运算来组合分析过程。根据所有片段单元的共现频率来评估最有可能性的分析结果。本文详细论述了语料库的标注,片段单元的定义。
- 朱靖波姚天顺
- 关键词:面向数据句法分析自然语言
- 基于概念的中文文本可视化表示机制被引量:9
- 2000年
- 为了浏览因特网上日益增多的在线中文文本 ,本文给出了基于概念的中文文本可视化表示机制 ,以直观的方式组织和表示文本及文本集 .其基本思想是 :首先在概念扩充的基础上 ,进行文本分类 .然后 ,利用本文提出的文本特征抽取方法和摘要方法 ,获取文本类别、文本、文本正文的标记信息 ,通过类别、文本、正文的超文本连接 ,帮助用户有目的、有选择地浏览文本 .
- 林鸿飞姚天顺
- 关键词:信息处理文本分类
- 基于连接文法的双语E-Chunk获取方法被引量:4
- 2002年
- 提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语E Chunk的识别技术和双语E Chunk获取方法·双语E Chunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持·
- 吕学强陈文亮姚天顺
- 关键词:自然语言处理双语对齐词义消歧机器翻译
- 基于统计的汉英句子对齐研究
- 翻译比较规范的汉英语料适合用统计方法实现句子对齐.但评价函数中的参数计算不能采用处理印欧语种的方法,而要针对汉英语种的特点进行调整在已有两种评价函数的基础上,文中又提出五种评价函数,并进行了对比研究.
- 吕学强李清隐任飞亮姚天顺
- 关键词:双语语料句子对齐评价函数
- 文献传递
- 我的意见
- 1998年
- 我的意见姚天顺早在本世纪80年代,日本政府就投资196亿日元,成立电子辞书研究所,专门研究电子词典。美国国防部的高技术研究项目DARPA,也专门开设“语音与自然语言研究”,受到世人注目。特别是全世界正走向网络时代,网上的语言信息占整个传送信息的90%...
- 姚天顺
- 关键词:语料库语文现代化计算语言学交叉性汉语语料库电子辞书电子词典