北京语言大学信息科学学院语言信息处理研究所
- 作品数:70 被引量:365H指数:12
- 相关作者:刘智颖牟小峰李晟朱小杰罗镭贾更多>>
- 相关机构:北京工业大学计算机学院北京外国语大学中国外语教育研究中心中山大学国际汉语教材研发与培训基地更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学电子电信更多>>
- 广义话题结构理论视角下话题自足句成句性研究被引量:4
- 2014年
- 话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。
- 尚英宋柔卢达威
- 藏族人名汉译名识别研究被引量:3
- 2009年
- 藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂 其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊。本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字(串)特征,并构建了藏族人名属性特征库 通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统。真实语料库开放测试F值达到87.12%。
- 罗镭贾宋柔朱小杰
- 关键词:未登录词自动分词
- 基于规则的名词短语预调序
- 短语预调序是提高机器翻译效果的有效手段。本文通过对英汉翻译中名词短语结构的分析,总结得到名词短语调序规则,通过将这些规则进行短语预调序,提高了最终的翻译效果。为了缓解专家规则覆盖范围太大的弊端,本文从大规模双语语料中自动...
- 牟小峰荀恩东
- 文献传递
- 信息检索需求描述中的词语区域凸显
- 2008年
- 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。
- 熊文新宋柔
- 关键词:信息检索功能块
- 从广义话题结构考察汉语篇章话题认知复杂度被引量:10
- 2014年
- 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
- 卢达威宋柔尚英
- 关键词:汉语篇章
- 相似词及其在计算机辅助校对系统中的应用
- 统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
- 罗智勇宋柔
- 关键词:数据稀疏相似词计算机辅助校对
- 文献传递
- 一种基于可信度的人名识别方法
- 专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》...
- 罗智勇宋柔荀恩东
- 关键词:自动分词人名识别统计语言模型
- 文献传递
- 应用二叉树剪枝识别韵律短语边界被引量:4
- 2006年
- 句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。
- 荀恩东钱揖丽郭庆宋柔
- 关键词:统计语言模型二叉树韵律短语最大熵
- 标点句标注研究
- 本文在提出标点句的基础之上,讨论了标点句的研究内容及意义,重点论述了标点句的标注问题。基于易视性、自动形成树形结构、便于扩充三原则,我们提出一种用于标点句研究的不同于现有句法标注的新方法, 并实际标注了1294个标点句,...
- 黄建传宋柔
- 关键词:句法关系标点
- 文献传递
- 基于广义话题结构语料库的语体对比研究——以报告体与小说体为例被引量:2
- 2014年
- 传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边界明确的标点句为基础,提出了广义话题和话题结构的概念。从广义话题的角度对比了工作报告语体和小说语体的差异,涉及到命名实体话题、状性话题、谓性话题、逻辑话题和关系话题等。并对这种差异的原因做了合理的解释。虽然工作报告与小说在语体上差异明显,但没有人从话题-说明的角度进行过比较,更从未有大规模语料库上的统计分析。该工作丰富了统计语体学的理论,并且为计算机自动分析话题结构、自动评判作文水平、文本按语体分类等应用打下了扎实的基础。
- 尚英宋柔
- 关键词:语体