张冬茉
- 作品数:35 被引量:188H指数:8
- 供职机构:上海交通大学电子信息与电气工程学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金德国大众基金更多>>
- 相关领域:自动化与计算机技术天文地球建筑科学电气工程更多>>
- 自然语言生成中的句子结构优化处理被引量:8
- 1998年
- 本文介绍多语种文本生成系统中的句子结构优化处理,采用基于语义的规则驱动方法来消除句子之间的信息冗余,从而使生成的文本更加自然流畅,可读性强。这种方法独立于具体语言,不受语种限制,具有极好的移植和扩展能力,在自然语言生成系统中具有广泛的研究价值。句子优化的主要类型、算法的构造以及规则的定义方法均在文中作了详细的说明。
- 李锦乾张冬茉姚天方
- 关键词:自然语言生成信息处理句子结构
- 使用角色反演句法分析器RNA二级结构的预测被引量:1
- 2006年
- RNA二级结构预测问题是生物信息学的一个研究重点。该文主要利用自然语言理解中句法分析的方法来研究RNA二级结构预测。使用基于角色反演算法建立起来的,采用概率上下文无关文法进行分析的句法分析器,来预测RNA二级结构。结合传统Chart算法分析器和广义LR算法分析器的优点,建立角色反演句法分析器;根据RNA二级结构的构建方法建立相应的概率上下文无关文法;给出对RNA二级结构进行预测的具体实例。
- 党琰张宇镭张冬茉赵立平
- 关键词:RNA二级结构预测句法分析概率上下文无关文法
- 数据挖掘在保险分析中的应用被引量:6
- 2004年
- 数据挖掘是一个应用统计学和人工智能等算法进行知识发现的过程。该文阐述了数据挖掘的技术。基于车辆险重点探讨了数据挖掘 技术在保险产品分析中的应用,包括数据仓库的建立、数据挖掘主题的定义和数据挖掘的过程。
- 梅强张冬茉
- 关键词:数据仓库模型
- 多语种自然语言生成系统中的预映射句子规划器被引量:4
- 2001年
- 自然语言生成是研究如何用计算机来生成自然语言文本的研究领域 ,经典结构是宏观规划、微观规划和表层生成的流水线结构 .分析了多语种自然语言生成系统 ACNL G中的微观规划器 ,提出了“基于语言资源预映射的句子优化器”,它不仅对句子进行优化 ,而且负责将语种无关的文章内容映射到具体语种的表达方式中 .其核心思想就是将处理过程同具体语种的语言资源相分离 ,但同时又以语言资源为导向 ,既继承了现有方法的优点 ,同时也解决了多语种条件下各语种之间细微差别的处理问题 ,使句子优化能够针对目标语种的特点进行优化操作 ,从而使优化效果有实质的提高 。
- 张冬茉葛永姚天昉
- 关键词:自然语言处理计算机
- 基于本体的商务领域文本检索的研究
- 2007年
- 文本挖掘技术是从海量文本信息中获取潜在有用知识的有效途径。传统的文本挖掘方法由于不能有效运用语义信息而难以达到更高的准确度。本体论为语义信息的合理表示和有效组织提供了理论支持和技术手段,把本体引入到商务企业文本检索中,以文本的段落为检索的最小单位,提出了一个信息检索的模型。该模型能从文本中抽取信息而建立本体标识符,用本体标识符来表示文本的段落,从而对检索要求和段落进行语义匹配,最后得到检索结果。
- 黄嘉满张冬茉
- 关键词:文本挖掘本体论信息检索
- 一种基于同义词消除的文本过滤方法被引量:1
- 2006年
- 传统的向量空间过滤模型通常是提取字、词、短语等作为特征项,这样做的缺点是没有考虑文本的语义信息。文章提出了利用知网对向量空间模型的文本向量进行同义词消除的过滤方法。该方法比传统的单纯基于关键词匹配的方法更精确地体现了文本之间的相似度,提高了过滤性能,同时也降低了向量空间的维数,减少了计算量,提高了过滤的效率,实验结果表明基于该文的过滤方法确实提高了系统的性能。
- 杭娟张冬茉
- 关键词:文本过滤向量空间
- 基于RST语篇分析方法的问题回答系统的答句生成被引量:3
- 2004年
- 提出了一种问答系统中非实体类型的答句生成方法,该方法从修辞关联分析的基本原理和技术入手,应用RR分析技术进行汉语QA系统中答案抽取和生成的基本方法和步骤实现了一个实验系统。论文中给出了实验结果并进行了详细分析。 ,
- 毛新华张冬茉
- 关键词:问题回答系统答案抽取
- 采用开放语料库的跨领域模式自动获取被引量:1
- 2005年
- 信息抽取模式的自动获取不仅能极大地减少所需的工作量,而且对于信息抽取系统的可扩充性和可移植性都至关重要。该文提出的采用开放语料库的跨领域模式自动获取方法是采用开放的训练语料库来自动生成领域无关的抽取模式,借助模式和实例之间的二元性,不断获取新的语料对系统进行训练,从而克服以往训练语料库规模较小的缺点。该方法尽可能减少了领域相关性,领域移植的代价很小。由于采用开放语料,该文提出了一种通过机器学习使用统计模型来自动选取用于模式生成和评价的正反实例的方法。根据在投资领域的测试结果,该方法获得了较好的效果,模式抽取的平均查准率达到92%,平均召回率达到42.4%。
- 曾兴杰李芳张冬茉
- 基于文本的关联规则提取方法的研究被引量:6
- 2008年
- 随着人们利用信息技术生产和搜集数据的能力的提高,数据资料的规模急速膨胀,从庞大的数据中提取有用的知识和信息是数据挖掘的主要任务,而关联规则的挖掘是数据挖掘领域中的一个重要分支。Fp-growth算法是目前最有效的关联规则频繁模式挖掘算法之一,然而,由于在挖掘的过程中需要递归的生成频繁模式树,直接把Fp-growth算法应用在文本中的算法效率并不高。针对文本数据的稀疏性,提出了一个基于频繁模式树即Fp-tree和支持度矩阵相结合的最大频繁项目集挖掘算法,缩小了搜索空间,提高了算法的效率。算法分析和实验表明,算法对稀疏型数据集和稠密型数据均适用。
- 黄嘉满张冬茉
- 关键词:数据挖掘关联规则频繁模式增长最大频繁项目集
- 多语种自然语言生成系统中的语言模型被引量:4
- 2000年
- 介绍了在多语种自然语言生成系统中如何用统一的模型来表示各语种的语言知识 .本文将语言知识分为语义资源和语法资源两个部分 .前者通过 Schema和优化规则确定文本的内容 ;后者根据句子结构类、句法规则和词典确定文本的具体形式 .该模型以复杂特征集为语言知识的载体 。
- 张冬茉葛永姚天昉
- 关键词:语言模型