辽宁省高等教育学会“十二五”高等教育科研课题(GHYB110231)
- 作品数:2 被引量:1H指数:1
- 相关作者:景秀丽更多>>
- 相关机构:东北财经大学沈阳师范大学更多>>
- 发文基金:辽宁省教育厅高等学校科学研究项目辽宁省高等教育学会“十二五”高等教育科研课题国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于概率和句法的句子压缩技术对比研究
- 2012年
- 句子压缩是自然语言处理领域的一个基础应用方向,是开发自动文摘生成系统和自动标题生成系统的第一步.句子压缩技术主要是以简短的形式重写句子并且保留原句中最重要的信息.好的压缩句子应该是合乎语法的和表述连贯的句子.选取Noisy-Channel Model压缩算法和Hedge Trimmer压缩算法作为两种压缩技术的代表范例进行对比研究,分析了两种方法的优势和劣势,探索了一种混合式句子压缩技术.混合式压缩技术将会改善英文句子压缩效果,相关研究将成为自然语言处理领域的一个新方向.
- 景秀丽
- 关键词:句法语料库
- Hedge Trimmer句子压缩技术的算法实现及改进被引量:1
- 2012年
- 压缩技术旨在模拟人类的文本概括和信息提取能力。句子压缩技术是自动生成能够保留原句核心内容的,合乎语法的,语义连贯的简短句子。文章分析了英文句子压缩技术中基于句法分析的Hedge Trimmer压缩技术,讨论了相关压缩理论,探索其压缩过程并用类C语言进行算法实现。提出了好的压缩句应该至少满足以下3个标准:第一是保留原句的核心内容,第二是具有正确的语法,第三是压缩长度合理。在算法的评估工作中,从DUC 2003语料库中选取了624个原始句子和对应的人工压缩句,与Hedge Trimmer压缩算法自动生成的压缩句进行对照分析。发现5种压缩效果不理想的情况,分析其原因并提出了改进策略。最后,通过实例对改进算法生成的压缩句和原来算法生成的压缩句进行对比评估,证明了改良算法能够获得更理想的压缩句。在英文句子压缩领域,改良的Hedge Trimmer句子压缩算法值得推广和应用。
- 景秀丽
- 关键词:HEDGE