上海市科委国际合作基金(045107035)
- 作品数:4 被引量:73H指数:2
- 相关作者:李芳刘磊韩颖刘克彬盛焕烨更多>>
- 相关机构:上海交通大学更多>>
- 发文基金:上海市科委国际合作基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于核函数中文关系自动抽取系统的实现被引量:68
- 2007年
- 实体关系抽取是信息抽取的重要组成部分.基于核函数的中文实体关系自动抽取系统应用改进的语义序列核函数,结合KNN机器学习算法构造分类器来分类并标注关系的类型.通过对ACE评测定义的三大类6子类实体关系的抽取,关系抽取的平均精度可以达到88%,明显高于基于特征向量和传统的序列核函数方法,该方法适合小训练集,易于学习新的实体关系.系统由8个独立的模块构成,便于维护和升级.系统既可以独立运行,也可以嵌入在开放的文本处理平台GATE环境.为了更好地利用关系抽取的结果,系统扩展传统的二元关系,抽取关系的同时,抽取该关系的描述,形成完整的中文实体关系抽取系统.
- 刘克彬李芳刘磊韩颖
- 关键词:关系抽取核函数信息抽取语义
- 基于特征选择和语义扩展的词序列核函数研究
- 词序列核函数是Convolution核的一种,它处理的对象是离散的词序列。词序列核函数的计算过程不需要显式地构造特征向量,而且具有良好的复合特性,在自然语言处理领域有广泛的应用。传统的词序列核函数没有考虑到语义信息,本文...
- 刘克彬李芳刘磊韩颖
- 关键词:核方法语义
- 文献传递
- 基于词对特征的事件新侧面探测被引量:1
- 2009年
- 在基于事件框架的新闻信息抽取中,针对事件侧面被框架结构所限定的问题,提出一种事件新侧面探测方法,并定义事件新侧面的2种类型。通过去除已有的侧面内容,实现LSA聚类探测,同时在文本特征选取部分采用词对特征模型,以充分利用有限文本中的语法信息。在原型系统中对该方法进行测试,实验结果表明,该方法是有效的。
- 冯礼李芳盛焕烨
- 关键词:信息抽取
- 基于向量空间模型的中文搜索引擎评测系统研究与实现被引量:4
- 2007年
- 提出了能够综合衡量搜索引擎工作性能的六个评测指标,选择了当今主流的三个搜索引擎:谷歌、雅虎和百度进行评测,成功地在两个大型的数据集上实现了整个自动评测系统。实验表明,谷歌工作性能最稳定;雅虎返回的第一个结果最能满足用户的要求,但会受时间因素的影响;百度明显地受关键字类别因素的影响。最后对中搜、狗、爱问进行了评测。
- 周凯李芳盛焕烨
- 关键词:中文搜索引擎自动评测
- 基于两次分类的校友搜索系统的设计与实现
- 2007年
- 从Internet上自动搜索校友信息时,校友信息的判别可以作为文本分类问题来处理.然而由于校友信息在Internet上分布的稀疏性,使得传统基于统计的分类方法的精度不高.本文使用了两次分类的方法来判别校友信息.第一次分类基于规则的方法,目的去除绝大多数的反例,降低分类问题的规模.第二次分类基于统计的方法,最终确定校友信息.实验结果表明,系统具有较高的准确率和召回率.
- 刘磊刘克彬韩颖李芳
- 关键词:文本分类