鲁松
- 作品数:13 被引量:429H指数:8
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于粗集和MBL构建自然语言处理分类器
- 自然语言知识的自动获取是困难的.在承认自然语言中存在“规律”也存在“例外”的前提下,过分强调“规则”或“例外”的机器学习方法都是偏激的.本文结合基于粗糙集理论的属性值约简和基于相似性推理的Memory-Based Lea...
- 鲁松白硕何清法郝沁汾
- 关键词:自然语言处理粗糙集
- 文献传递
- 自然语言处理中记忆学习方法的改进
- 记忆学习方法(Memory-Based Learning(MBL))将存储的训练数据作为获取的知识来使用,并通过相似性比较来完成分类任务,克服了词语一级自然语言处理中知识表示不足给机器学习知识获取带来的障碍.但自然语言的...
- 鲁松孙红梅白硕
- 关键词:自然语言处理词语权重
- 文献传递
- 基于记忆学习方法在自然语言处理中的应用
- 2001年
- 1 背景介绍
在诸多自然语言处理应用问题中,传统手工规则的失败暴露了经典人工智能IF-THEN推理模式在自然语言知识体系尚未完全把握的情况下的缺陷.由此,在一定知识推理机制体系下,自然语言的知识表示和知识获取作为自然语言处理中的关键问题已经成为困扰其形式化的主要瓶颈.
- 鲁松白硕
- 关键词:自然语言处理人工智能
- 自然语言处理中词语上下文有效范围的定量描述被引量:68
- 2001年
- 词语的上下文 (context)是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题必须依靠的资源和基础 .但上下文“窗口”开多大为宜呢 ?为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足 ,我们在引入信息增益方法确定上下文各位置的信息量后 ,构造上下文位置信息量函数 ,最终通过多项式积分确定 85 %信息量的上下文边界 ,即汉语核心词语最近距离 [- 8,+9]和英文[- 16 ,+13]位置之间的上下文范围 .
- 鲁松白硕
- 关键词:信息增益自然语言处理词语计算机
- 基于向量空间模型的有导词义消歧被引量:58
- 2001年
- 词义消歧一直是自然语言理解中的一个关键问题 ,该问题解决的好坏直接关系到自然语言处理中诸多应用问题的效果优劣 .由于自然语言知识表示的困难 ,在手工规则的词义消歧难以达到理想效果的情况下 ,各种有导机器学习方法被应用于词义消歧任务中 .借鉴前人的成果引入信息检索领域中向量空间模型文档词语权重计算技术来解决多义词义项的知识表示问题 ,并提出了上下文位置权重的计算方法 ,给出了一种基于向量空间模型的词义消歧有导机器学习方法 .该方法将多义词的义项和上下文分别映射到向量空间中 ,通过计算多义词上下文向量与义项向量的距离 ,采用 k- NN(k=1)方法来确定上下文向量的义项分类 .在 9个汉语高频多义词的开放和封闭测试中均取得了突出的成绩 (封闭测试平均正确率为 96 .31% ,开放测试平均正确率为 92 .98% ) 。
- 鲁松白硕黄雄张健
- 关键词:词义消歧向量空间模型自然语言理解
- 一种自动抽取图像中可判别区域的新方法被引量:8
- 2002年
- 图像分割是图像处理中的一个难题 .为了自动抽取图像中的可判别区域 ,提出了一种基于自组织图归约算法的区域抽取新方法 .首先 ,利用包括颜色、纹理以及位置在内的多模特征抽取算法 ,原始图像被转换成特征图 ;接着 ,通过自组织映射学习算法 ,特征图被映射成自组织图 ;然后 ,对自组织图实施归约算法得到一族约简的自组织图谱系 ;最后 ,利用一个综合的聚类有效性分析指标从约简的自组织图谱系中得到一个最优约简的自组织图 ,以此实现图像区域的分割 .新方法的有效性通过两个评价实验得到了验证 .
- 何清法鲁松郝沁汾李国杰
- 关键词:自组织映射聚类有效性分析图像分割计算机视觉
- 汉语多重关系复句的关系层次分析被引量:31
- 2001年
- 汉语多重关系复句的句法分析问题主要由复句中的关系分析和层次分析两部分组成 .将多重关系复句中的层次分析作为研究对象 .它是针对多种逻辑或并列关系 ,按照一定层次组成复杂主从关系复句而进行的关系层次分析过程 .为了有效地形式化地表示多重关系复句的层次结构 ,提出了关系层次树的概念 ,并以此为基础构造文法 ,采用部分数据驱动的确定性移进 归约算法实现多重关系复句的关系层次分析 .通过开放测试对计算机实现的多重关系复句句法分析器进行考察 ,93.56 %的正确率使所提出的分析方法的有效性和正确性得到了充分的验证 .
- 鲁松白硕李素建刘群
- 关键词:句法分析自然语言理解
- 词距离的计算方法
- 无监督地构建以词距离知识形式表示的自然语言词语相关性知识库是本文的研究目标.作为一种定量化的知识表示方式,词间距离可以为统计方法数据稀疏的平滑和基于相似性计算自然语言处理和信息检索等定量方法提供一个基础性的支持.基于向量...
- 鲁松白硕
- 基于向量空间模型中义项词语的无导词义消歧被引量:61
- 2002年
- 有导词义消歧机器学习方法的引入虽然使词义消歧取得了长足的进步,但由于需要大量人力进行词义标注,使其难以适用于大规模词义消歧任务.针对这一问题,提出了一种避免人工词义标注巨大工作量的无导学习方法.在仅需义项词语知识库的支持下,将待消歧多义词与义项词语映射到向量空间中,基于k-NN(k=1)方法,计算二者相似度来实现词义消歧任务.在对10个典型多义词进行词义消歧的测试实验中,采用该方法取得了平均正确率为83.13%的消歧结果.
- 鲁松白硕黄雄
- 关键词:向量空间模型自然语言处理
- 汉英机器翻译中描述型复句的关系识别与处理被引量:13
- 2001年
- 汉英机器翻译的复句处理不仅要依托于单句的处理 ,而且还要超越单句的辖域 ,深入考察复句内分句之间的内在联系 .其中 ,在汉语描述型复句中存在着大量的无特定语言标记的非并列关系复句 ,为了辨别其中的内在联系 ,实现英语译文的正确生成 ,针对不同情况 ,给出了完整的关系判定规则 ,并提出采用中心分句动态判定方法来解决部分复句处理规则局部性的问题 ,最后通过实验系统得以验证 .
- 鲁松宋柔
- 关键词:汉英机器翻译信息处理