国家自然科学基金(69775017) 作品数:12 被引量:196 H指数:6 相关作者: 赵铁军 李生 孟遥 杨沐昀 姚建民 更多>> 相关机构: 哈尔滨工业大学 上海水产大学 黑龙江工程学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 语言文字 更多>>
四种基本统计句法分析模型在汉语句法分析中的性能比较 被引量:23 2003年 统计模型的选择是统计句法分析的关键。目前句法分析常用的有四种经典统计模型—PCFG模型 ,基于历史模型、分层渐近式模型和头驱动模型。本文通过实验 ,在已有的 10 0 0 0句汉语树库基础上 ,测试了这四种经典模型在现有数据规模下各自的性能 ,并论述了这四种经典模型的各自特点。本文旨在通过对四种基本模型的比较研究 ,为具体应用中句法分析模型的选择提供参考和依据。 孟遥 李生 赵铁军 曹海龙关键词:计算机应用 中文信息处理 英语介词短语附着决策的研究 被引量:5 2001年 提出了ID3决策树和WordNet语义知识相结合的方法 ,用此来确定英语介词短语附着对象。首先将介词附着问题抽象成词汇和语义元组的组合问题 ,然后转化为对每个词汇和语义元组属性值的决策。单个介词附着决策的正确率达 85.15%。此外 ,该方法可用于处理多重介词附着的两个显著问题 :数据稀疏和附着歧义更大 ,即提出了递归运用前面的决策结果来解决多重介词附着问题的算法。实验表明 ,该方法取得了较好的消歧结果。 赵铁军 方高林 李生关键词:决策树算法 文字信息处理 基于评价的英语句法结构消歧和自我评价的规则校正 被引量:2 2002年 句法结构歧义是句法分析过程中最主要也是最难解决的问题之一 .使用了一种组合型的概率评价函数解决英语句法分析过程中所面临的结构歧义问题 ,综合考虑了句法分析时的结构特性和上下文信息 .并使用基于规则的句法分析后校正机制对错误的分析结果进行进一步的校正 .组合型的概率评价函数为更精细的句法分析提供了一个可以扩充的统计模型 ,这种方法也可以适用于其它语言的句法分析 .实验结果表明 ,这种方法具有较高的精确率和召回率 . 孟遥 赵铁军 李生 姚建民关键词:句法分析 基于RETE网的句法分析算法研究 被引量:1 2007年 结构消歧是句法分析的一项重要任务。研究表明,增加复杂特征有利于提高句法分析系统的消歧能力。但相对于不包含复杂特征的句法分析系统,包含复杂特征规则的系统,通常规则数量较大,规则的匹配和存贮成为句法分析算法面临的一个问题。提出一种基于RETE网的高效可并行的句法分析算法。该算法将复杂特征规则转换为RETE匹配网,从而实现规则的高效存贮和快速匹配。实验表明,该算法可以有效组织大量多特征规则,并进行高速句法分析。 孟迎 印润远 孟遥提高汉语自动分词精度的多步处理策略 被引量:55 2001年 :汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略 ,整个处理步骤包括 7个部分 ,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达 赵铁军 吕雅娟 于浩 杨沐昀 刘芳关键词:汉语自动分词 基于分解与动态规划策略的汉语未登录词识别 被引量:81 2001年 :未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名 ,中国地名和外国译名进行整体识别为目标 ,采用分解处理策略降低了整体处理难度 ,并使用动态规划方法实现了最佳路径的搜索 ,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试 。 吕雅娟 赵铁军 杨沐昀 于浩 李生关键词:未登录词识别 动态规划 汉语自动分词 路径搜索 词义消歧研究的现状与发展方向 被引量:12 2001年 This paper outlines the state-of-the-art of word sense disambiguation(WSD)in the following aspects: the application of WSD,representation of disambiguation knowledge ,approaches and their evaluations. The paper analyzes current widely-applied WSD approaches,compares their merits and shortages. The direction of further researches in WSD field has been explored. 李生 张晶 赵铁军 姚建民关键词:自然语言处理 词义消歧 计算机 语料库 基于Word Net和How Net建设双语语义词典 被引量:7 2001年 针对当前语义信息往往需要手工获取的现状 ,探讨了利用英语义类词典Word Net和汉语概念词典HowNet资源 ,为双语机读词典ECDic2K的英语词条添加概念和语义类的自动方法 ,以改善手工添加语义类带来的低效率和不一致性等问题。实验表明 ,该方法向英汉双语机读词典ECDic2K的 35 84 8词条译文项自动添加语义信息 ,而改造后的双语语义词典为单语语义分析中的成熟技术用于跨语言研究提供了方便 ,这在机器翻译和跨语言检索等自然语言处理领域具有很高的实用价值。 张晶 姚建民 赵铁军 李生关键词:HOWNET WORDNET 词典 语义分析 自然语言处理 BT863-II汉英机器翻译系统中的兼类处理方法 被引量:2 2000年 将精简循环网络引入汉语词的兼类处理,并针对精简循环网络只能记忆和使用上文信息的问题提出了正反向精简循环网络的思想,使上下文信息在网络中同时得到有效利用。通过神经网络方法与规则方法的合理结合,在分词正确的情况下,BT863II中汉语词兼类处理的准确率达到981%。 王海峰 李生 赵铁军关键词:机器翻译 神经网络 汉英双语标注集的研究与实现 被引量:3 2000年 标注集是任何自然语言处理研究中的知识表达基础。本文结合汉英双向机器翻译开发和双语语料库加工的实践 ,提出了建立标准的汉英双语标注集的必要性 ,探讨了该标注集设计过程中遇到的几个关键问题并给出了一个比较完备的汉英双语标注集解决方案。实践证明 ,该方案具有良好的开放性和兼容性 ,对于汉英双向机器翻译系统和汉英双语语料库研究都具有适用性。 杨沐昀 李生 赵铁军关键词:英语 汉语 双语语料库 机器翻译