国家自然科学基金(61171129)
- 作品数:8 被引量:64H指数:4
- 相关作者:宋柔卢达威尚英葛诗利蒋玉茹更多>>
- 相关机构:北京语言大学广东外语外贸大学北京大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金北京市自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字交通运输工程机械工程更多>>
- 广义话题结构理论视角下话题自足句成句性研究被引量:4
- 2014年
- 话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。
- 尚英宋柔卢达威
- 从广义话题结构考察汉语篇章话题认知复杂度被引量:10
- 2014年
- 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
- 卢达威宋柔尚英
- 关键词:汉语篇章
- 动词引出新支话题的语用功能研究被引量:1
- 2014年
- 汉语是一种话题显著的语言。汉语篇章中,同一话题会多次延续,也可能发生话题转换。该文讨论一种话题转换现象:原话题的说明中的某个成分成为新话题,但该新话题及其说明并不构成原话题的说明或原话题说明的一部分。这种话题可称为新支话题。该文对动词按照词汇语义进行分类,揭示动词将其宾语引出成为新支话题的能力所在。文章给出了《围城》中动词引出新支话题的全部实例的词汇语义分布统计。
- 季翠卢达威宋柔
- 关键词:动词
- 面向篇章机器翻译的英汉翻译单位和翻译模型研究被引量:15
- 2015年
- 篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句,基本单位为naming-telling小句(NT小句),即指称性成分加上对它的陈述或后修饰成分所构成的小句。该文展示了在这样的翻译单位体系下采用PTA模型的英汉翻译过程实例,规划了面向篇章翻译的英汉小句对齐语料库的建设任务,讨论了PTA模型的可行性。
- 宋柔葛诗利
- 关键词:翻译单位翻译模型
- 话题句识别中候选话题句评估函数的优化被引量:3
- 2014年
- 为了更好地解决汉语标点句句首话题缺失的问题,需要在话题句识别过程中优化用于评估候选话题句优劣的评估函数.为此,提出了话题句生成的上下文相似性特征、话题串与评述相邻接的局部相似性特征,并设计了相关的评估函数.实验结果表明:综合运用这2个评估函数,话题句识别的准确率提高了5.72个百分点.
- 蒋玉茹宋柔
- 关键词:相似度
- 基于广义话题结构语料库的语体对比研究——以报告体与小说体为例被引量:2
- 2014年
- 传统语体学对于语体的描写多集中于词汇、句式、修辞等方面。近年来学者们开始在语法研究中更加重视语体因素,但是目前的研究多为微观的分析,没有宏观的理论体系支撑,难以探索到语体深层次的问题。广义话题理论根据汉语篇章的特点,以边界明确的标点句为基础,提出了广义话题和话题结构的概念。从广义话题的角度对比了工作报告语体和小说语体的差异,涉及到命名实体话题、状性话题、谓性话题、逻辑话题和关系话题等。并对这种差异的原因做了合理的解释。虽然工作报告与小说在语体上差异明显,但没有人从话题-说明的角度进行过比较,更从未有大规模语料库上的统计分析。该工作丰富了统计语体学的理论,并且为计算机自动分析话题结构、自动评判作文水平、文本按语体分类等应用打下了扎实的基础。
- 尚英宋柔
- 关键词:语体
- 汉语篇章广义话题结构的流水模型被引量:45
- 2013年
- 本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句的成句性。广义话题结构的分析对于说汉语者具有可操作性,流水模型对于汉语文本有高覆盖率,数十万字多种语体文本的广义话题结构标注已经初步完成。这些事实说明,广义话题结构确实是理论上和应用上有本质意义的汉语篇章结构单位。
- 宋柔
- 基于最大熵模型的汉语标点句缺失话题自动识别初探被引量:4
- 2015年
- 本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。
- 卢达威宋柔
- 关键词:自动识别最大熵模型