李珩
- 作品数:9 被引量:136H指数:6
- 供职机构:东北大学信息科学与工程学院计算机软件与理论研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划教育部科学技术研究重点项目更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 汉语组块识别被引量:10
- 2004年
- 提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基础上,将其中两个较好的模型融合为一个更好的模型·实验结果显示,该方法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=82 38%·
- 李珩谭咏梅朱靖波姚天顺
- 关键词:汉语组块隐马尔科夫模型转换函数
- 基于对数模型的词义自动消歧被引量:21
- 2001年
- 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 .
- 朱靖波李珩张跃姚天顺
- 关键词:机器翻译自然语言处理计算机
- 基于增益的隐马尔科夫模型的文本组块分析被引量:14
- 2004年
- 本文提出一种基于增益的隐马尔科夫模型(Transductive HMM)的方法,用于文本组块(Text Chunking)分析的研究。该方法将一些上下文信息导入隐马尔科夫模型(HMM),构造增益的隐马尔科夫模型(TransductiveHMM)。该模型不需要修改标准的隐马尔科夫模型的训练和标注过程,只需要对训练语料根据导入的上下文信息进行相应的转换。实验结果显示,该方法在文本组块分析方面是有效的。
- 李珩杨峰朱靖波姚天顺
- 关键词:中文信息处理隐马尔科夫模型支持向量机
- 基于Stacking算法的组合分类器及其应用于中文组块分析被引量:26
- 2005年
- 与基于Voting方法的组合分类器相比,提出基于Stacking算法的多分类器组合方法,通过构造一个两层的叠加式框架结构,将4种分类器(fnTBL,SNoW,SVM,MBL)进行了组合,并融合各种可能的上下文信息作为各层分类器的输入特征向量,在中文组块识别中取得了较好的效果.实验结果表明,组合后的分类器无论在准确率还是召回率上都有所提高,在哈尔滨工业大学树库语料的测试下达到了F=93.64的结果.
- 李珩朱靖波姚天顺
- 关键词:叠加式多分类器
- 基于SVM+Sigmoid的汉语组块识别被引量:3
- 2004年
- 本文提出用 SVM+Sigmoid 来进行汉语组块识别的方法。SVMs 具有不需要进行认真选取特征的优点,并且在具有高维特征空间的输入数据上也能够具有高的泛化性能,通过核函数的原则,SVMs 能够在独立于训练数据维数的小计算范围内进行训练。Sigmoid 函数使用一个参数模型来直接拟合后验概率,从而将 SVMs 的输出映射成一个后验概率,使一个分类器在做全局决策的一个局部决策时,考虑到全面分类,从而决策更具有合理性。实验结栗表明该方法较单纯的 SVMs 方法具有好的效果。
- 谭咏梅姚天顺陈晴李珩朱靖波
- 关键词:SVMSIGMOID函数汉语组块组块识别支持向量机
- 基于词对齐的双语组块对齐
- 本文提出了一种基于词对齐的双语组块对齐的方法。它利用已有的词对齐信息和英语组块识别结果,进行汉语组块的识别和双语组块的对齐。通过对双语组块对齐实例的分析,我们将组块对齐分为三种情况:(1)双语组块对应连续(2)双语组块对...
- 任登君李珩张俐姚天顺
- 关键词:词对齐
- 文献传递
- Co-training机器学习方法在中文组块识别中的应用被引量:16
- 2005年
- 采用半指导机器学习方法co training实现中文组块识别。首先明确了中文组块的定义,co training算法的形式化定义。文中提出了基于一致性的co training选取方法将增益的隐马尔可夫模型(TransductiveHMM)和基于转换规则的分类器(fnTBL)组合成一个分类体系,并与自我训练方法进行了比较,在小规模汉语树库语料和大规模未带标汉语语料上进行中文组块识别,实验结果要比单纯使用小规模的树库语料有所提高,F值分别达到了85 34%和83 4 1% ,分别提高了2 13%和7 2 1%。
- 刘世岳李珩张俐姚天顺
- 关键词:计算机应用中文信息处理分类器
- Co-training机器学习方法在中文组块识别中的应用
- 采用半指导机器学习方法Co-training实现中文组块识别。首先明确了中文组块的定义,Co-training算法的形式化定义。文中提出了基于一致性的Co-training选取方法将增益的隐马尔可夫模型(Transduc...
- 刘世岳李珩张俐姚天顺
- 关键词:分类器
- 文献传递
- 基于SVM的中文组块分析被引量:76
- 2004年
- 基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。
- 李珩朱靖波姚天顺
- 关键词:计算机应用中文信息处理支持向量机结构风险最小化SVM