李鑫鑫
- 作品数:5 被引量:13H指数:2
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于级联重排序的汉语音字转换被引量:1
- 2014年
- N元语言模型是解决汉字音字转换问题最常用的方法.但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束.我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征.实验结果显示,两种方法都能有效地提高词N元语言模型的性能.而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.
- 李鑫鑫王轩姚霖关键
- 词边界字向量的中文命名实体识别被引量:8
- 2016年
- 常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff-3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。
- 姚霖刘轶李鑫鑫刘宏
- 关键词:特征向量特征提取
- 基于重排序的依存句法分析和语义分析联合学习
- 学习能够有效的利用全局特征,减少流水线学习方法造成的错误传递,但是直接联合学习又会带来高计算复杂性.针对依存句法分析和语义角色标注问题,本文采用了两种联合学习方法:概率联合学习和最大熵重排序方法.在最大熵重排序方法中,首...
- 李鑫鑫王轩姚霖
- 关键词:依存句法分析语义角色标注最大熵
- 自然语言处理中序列标注问题的联合学习方法研究
- 序列标注问题是自然语言处理领域的基本问题之一,可以分为两类:单序列标注问题,即预测一个输出标签序列的序列标注问题;多序列标注问题,即预测多个输出标签序列的序列标注问题。对于多序列标注问题,一般采用级联学习方法来处理,这种...
- 李鑫鑫
- 关键词:迭代方法
- 文献传递
- 基于语义理解的Bayesian-Boosting情感分类被引量:3
- 2010年
- 提出将语义理解与统计学方法相结合的机器学习算法来进行文本情感分类。首先提取文本中的情感词汇作为特征,利用统计学方法得到特征的初始权重,然后通过分析文本语义结构修改特征权重,最后利用Bayesian算法和以Bayesian作为基本分类算法的Boosting算法进行分类。实验表明,基于语义理解的Bayesian分类算法的分类准确率高于仅基于统计学的Bayesian分类算法,基于语义理解的Bayesian-Boosting算法的分类准确率最高,达到了90%。
- 沈剑平王轩于成龙李鑫鑫
- 关键词:语义理解BAYESIANBOOSTING情感分类