郭玉箐
- 作品数:4 被引量:16H指数:2
- 供职机构:清华大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:语言文字自动化与计算机技术更多>>
- 面向非受限领域的综合式自动中文文摘方法被引量:12
- 2002年
- 讨论了一种面向非受限领域的综合式中文自动文摘方法。其基本思路是 :采用向量空间模型对篇章结构进行自动分析 ,建立基于语义相似度的段落关系图 ,获取段落的重要度信息 ,并使用标题或聚类的方法划分意义段 ;根据词的频度 ,句子位置、提示语等文本形式特征计算句子的权值 ,分别从各意义段中选取高权值的句子作为文摘句 ;对文摘句进行句法和语义分析 ,消除冗余 ,解决指代词悬挂、文摘不连贯等问题 ,最终组成一篇简洁、通顺。
- 郭玉箐万敏罗振声
- 关键词:自动文摘方法向量空间模型篇章结构分析中文信息处理
- 面向非受限领域的综合式中文自动文摘的研究
- 该论文的目标是在对自动文摘技术进行深入研究的基础上,实现一个面向非受限领域的中文文本自动文摘系统.目前自动文摘所使用的三种主要方法——机械抽取文摘法.理解生成文摘法和基于结构的文摘法各有利弊,因此我们取长补短,将三种方法...
- 郭玉箐
- 关键词:自动文摘篇章结构分析
- 走向智能时代的语言信息化产业被引量:4
- 2016年
- 语言文字是信息最主要的载体,语言文字的信息化是实现国家信息化战略目标的基础。在语言信息化产业中,搜索引擎和机器翻译是最具代表性且已经实现大规模产业化的两大领域。本文以这两个领域为例,详细解读语言信息化技术和产业如何应对互联网时代的新机遇和新挑战,并展望语言信息化产业的智能化趋势。
- 郭玉箐徐俊王海峰
- 关键词:搜索引擎机器翻译
- 自动文摘系统中的意义段划分问题研究
- 意义段划分是自动文摘系统中文本结构分析阶段所要解决的一个重要问题.对有子标题的文章,本文总结了中文文章的各种子标题模式,根据标题进行意义段划分.对无子标题的文章,则建立以段落为基础的向量空间模型,根据段落相似度进行聚类实...
- 万敏罗振声郭玉箐
- 关键词:自动文摘向量空间模型聚类