姚霖
- 作品数:7 被引量:9H指数:1
- 供职机构:深港产学研基地更多>>
- 发文基金:国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于级联重排序的汉语音字转换被引量:1
- 2014年
- N元语言模型是解决汉字音字转换问题最常用的方法.但在解析过程中,每一个新词的确定只依赖于前面的邻近词,缺乏长距离词之间的句法和语法约束.我们引入词性标注和依存句法等子模型等来加强这种约束关系,并采用两个重排序方法来利用这些子模型提供的信息:1)线性重排序方法,采用最小错误学习方法来得到各个子模型的权重,然后产生候选词序列的概率;2)采用平均感知器方法对候选词序列进行重排序,能够利用词性、依存关系等复杂特征.实验结果显示,两种方法都能有效地提高词N元语言模型的性能.而将这两种方法进行级联,即首先采用线性重排序方法,然后把产生的概率作为感知器重排序方法的初始概率时性能取得最优.
- 李鑫鑫王轩姚霖关键
- 基于重排序的依存句法分析和语义分析联合学习
- 学习能够有效的利用全局特征,减少流水线学习方法造成的错误传递,但是直接联合学习又会带来高计算复杂性.针对依存句法分析和语义角色标注问题,本文采用了两种联合学习方法:概率联合学习和最大熵重排序方法.在最大熵重排序方法中,首...
- 李鑫鑫王轩姚霖
- 关键词:依存句法分析语义角色标注最大熵
- 基于多学习方式的信息抽取技术研究
- 文本是信息的重要载体之一。随着计算机普及和互联网的发展,产生了海量的文本资源。其产生的速度已经远远超过人工对信息和知识的处理能力。通过计算机辅助,从而高效地从无结构化的文本中提取有价值的信息,成为科研人员的重要课题。信息...
- 姚霖
- 关键词:信息抽取自然语言处理语义角色标注命名实体识别
- 文献传递
- 词边界字向量的中文命名实体识别被引量:8
- 2016年
- 常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征,但特征提取费时费力,是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖,构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中,自动抽取出蕴含其中的特征信息,生成字特征向量。同时考虑到汉字不是中文语义的最基本单位,单纯的字向量会由于一字多义造成语义的混淆,因此根据同一个字在词中处于不同位置大多含义不同的特点,将单个字在词语中所处的位置信息加入到字特征向量中,形成词边界字向量,将其用于深度神经网络模型训练之中。在Sighan Bakeoff-3(2006)语料中取得了F189.18%的效果,接近当前国际先进水平,说明了该系统不仅摆脱了对特征提取的依赖,也减少了汉字一字多义产生的语义混淆。
- 姚霖刘轶李鑫鑫刘宏
- 关键词:特征向量特征提取
- 基于双拼映射的中文多模式模糊匹配算法
- 本文针对中文信息过滤中遇到的关键字模糊匹配问题,提出了一种改进的多模式匹配方法,该方法将双拼映射和DFSA多模式匹配算法相结合,可以对中文文本实现高速的关键字模糊匹配.该算法已被成功地应用到宽带网络内容审计系统中,取得了...
- 杨忠伟王轩姚霖
- 关键词:信息过滤多模式匹配中文信息
- 文献传递
- 基于改进的模糊C均值算法的多文档自动文摘
- 中文语句隶属于类的模糊性,本文提出了一种改进的模糊C均值聚类算法确定多文档集合的潜在子主题.为了减小初值选取不当对模糊C均值算法产生的影响,该方法结合训练阈值的层次聚类算法以及样本密度算法投票生成初始聚类中心,初始化模糊...
- 郝志新王轩姚霖张耀允
- 关键词:MULTI-DOCUMENTSUMMARIZATIONC-MEANSHIERARCHICALSAMPLE
- 人物网络关系识别
- 雅虎的人物关系搜索、微软的人立方等商业应用的出现,人物关系识别问题也逐渐得到了更多的关注.本文提出了一种基于最长公共子串(LCS)问题加权处理的方法,并在此基础上构造了模板自动生成的人物关系识别系统.系统以2007年人民...
- 贺世杰王轩姚霖
- 关键词:RELATIONSEXTRACTIONLCSCRF