北京大学信息科学技术学院计算语言学研究所
- 作品数:353 被引量:2,882H指数:30
- 相关作者:俞士汶朱学锋段慧明刘扬于江生更多>>
- 相关机构:南开大学文学院中国语言文学系南开大学文学院郑州大学信息工程学院更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学自然科学总论更多>>
- 关键词自动标引系统的知识库建设
- 关键词对于文本聚类/分类、信息检索等任务都具有非常重要的意义。然而,其自动标引技术的实现离不开知识库的支持。本文首先列出了关键词自动标引系统的重要组成部分,并对知识库进行了详细介绍,并且列出了与一般专家系统知识库的区别。...
- 李素建辛乘胜王厚峰俞士汶
- 关键词:自动标引文本聚类知识库建设
- 文献传递
- 基于统计的翻译等价词对抽取研究被引量:16
- 2003年
- 对利用汉英双语语料进行翻译等价词对抽取进行了探索 .对不同的词对关联度量方法进行了对比 ,考察了词性信息、多词翻译单元识别对翻译等价词对抽取结果所可能产生的改进以及负面影响 .
- 常宝宝
- 关键词:机器翻译双语语料库知识获取
- 《现代汉语语法信息词典》在计算机辅助语言教学中的应用
- 本文简要介绍了《现代汉语语法信息词典》,论述了其在计算机辅助语言教学中应用的可行性,以及在对外汉语教学和母语教学中的具体应用。
- 亢世勇朱学锋俞士汶
- 关键词:对外汉语教学母语教学
- 计算语言学与外语教学被引量:8
- 2006年
- 本文概要介绍计算语言学的基本概念及计算语言学对外语教学的意义和作用,希望为促进外语教学提供一些新的想法,同时也希望吸引更多外语教学研究者关注计算语言学,共同推动人类语言技术的进步。
- 俞士汶柏晓静
- 关键词:计算语言学外语教学语料库教育科技
- 基于层次聚类的网络新闻热点发现
- 网络新闻热点发现的主要目的是从海量互联网数据中发现人们感兴趣的热点话题。在已有研究中,主要采用基于单篇报道的增量聚类方法。本文则提出一套针对单日新闻进行层次聚类,发现每日热点,再对热点进行增量聚类的框架。在对每日新闻的层...
- 彭楠赟王厚峰凌晨添
- 关键词:特征选取层次聚类
- 文献传递
- 面向EBMT的汉语单句谓语中心词识别研究被引量:24
- 1998年
- 在基于实例的汉英机器翻译(EBMT)系统中,为计算语句相似度,需要对句子进行适当的分析。本文首先提出了一种折中的汉语句子分析方法———骨架依存分析法,通过确定谓语中心词来把握句子的整体结构,然后,提出了一种根据汉英例句集中英语例句的谓语中心词来识别相应的汉语例句的谓语中心词的策略。
- 穗志方俞士汶
- 关键词:机器翻译汉语句子汉英机器翻译
- 旁指代词的连接功能考察被引量:1
- 2006年
- 本文对旁指代词“另”和“另外”的连接功能进行了详细的分析,并简要地探讨了旁指代词的连接功能在英语中的表现形式。
- 金晓艳彭爽
- 关键词:旁指代词
- 结合RNN和CNN层次化网络的中文文本情感分类被引量:21
- 2018年
- 提出一种多层网络H-RNN-CNN,用于处理中文文本情感分类任务。将文本按句子进行划分,引入句子层作为中间层,以改善文本过长带来的信息丢失等问题。模型中使用循环神经网络建模词语序列和句子序列,并通过卷积神经网络识别跨语句的信息。探讨循环神经网络变种和不同输入向量对模型的影响。实验结果表明,所提方法在多类数据集上都取得良好的效果。
- 罗帆王厚峰
- 关键词:循环神经网络
- 人民日报标注语料的索引方法研究
- 本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率。
- 王洪俊施水才俞士汶肖诗斌
- 关键词:混合索引
- 文献传递
- 服务于汉英机器翻译的双语对齐语料库和短语库建设
- 机器翻译研究是一项十分具有挑战性的课题,机器翻译系统的翻译质量不但依赖于机器翻译方法和语言计算模型的创新性研究,也有赖于服务于机器翻译的语言资源的建设和积累,本文描述了服务于汉英机器翻译翻译的双语对齐语料库以及汉英双语短...
- 常宝宝詹卫东柏晓静吴云芳张化瑞
- 关键词:机器翻译汉英翻译
- 文献传递