国家自然科学基金(60863011) 作品数:14 被引量:77 H指数:4 相关作者: 余正涛 郭剑毅 毛存礼 雷春雅 张志坤 更多>> 相关机构: 昆明理工大学 云南省智能信息处理研究所 安阳师范学院 更多>> 发文基金: 国家自然科学基金 云南省自然科学基金 云南省教育厅科学研究基金 更多>> 相关领域: 自动化与计算机技术 更多>>
领域本体概念实例、属性和属性值的抽取及关系预测 被引量:32 2012年 研究了如何使用协作分类器(协作使用条件随机场(CRFs)和支持向量机(SVM))解决领域概念实例、属性及属性值的抽取以及它们三者之间对应关系预测的问题.首先将概念实例、属性及属性值看作三类实体,把概念实例、属性及属性值的抽取问题转化为命名实体识别问题,利用条件随机场建模进行命名实体识别;在此基础上定义实体间对应关系,对概念实例、属性及属性值三者的对应关系做预测,把概念实例、属性与属性值三者之间存在关系的向量标记为1,否则标记为0,利用支持向量机建模进行关系的预测.且以云南旅游景点概念实例、属性及属性值进行六组相关的实验.实验表明,在开放测试中协作分类器精确度达到84.4%、召回率达到82.7%及F值达到为83.6%,相比于词语共现F值提高了20个百分点. 郭剑毅 李真 余正涛 张志坤关键词:领域本体 属性抽取 条件随机场 支持向量机 中文专家实体主页识别方法研究 2011年 专家实体主页识别是专家检索的一个重要的组成部分,本文提出了一种基于J48的机器学习算法来对中文专家实体主页进行分类识别。首先,人工收集中文专家实体及对应的专家主页面2 113个,针对中文专家实体特点,定义与链接和网页内容特征相关的专家实体特征,并对这些特征进行提取,形成训练数据集。然后,采用不同学习算法对在不同特征上的页面进行主页识别,寻找最有效的分类特征和主页识别学习算法。最后,对不同特征、不同算法进行测试,实验结果表明,采用J48算法,结合链接与网页内容特征,中文专家实体主页识别取得了较好的效果,其识别准确率达到了81.05%。 李丽娜 余正涛 王亚盛 毛存礼 郭剑毅关键词:链接特征 网页特征 A New Algorithm Based on Word Co-occurrence and Its Application in Domain Concept Extraction This paper puts forward an algorithm named CFE (Co-occurrence Frequency Emphasized) for new concept selection ... Yao Xian-Ming The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China Guo Jian-Yi The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China Yu Zheng-Tao The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China Zhang Yi-Hao The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China Zhang Zhi-Kun The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China Mao Cun-Li The School of Information Engineering and Automation Kunming University of Science and Technology Kunming.China关键词:COMPONENT CFE 融合领域命名实体识别的查询扩展方法研究 被引量:1 2012年 针对领域知识特点和当前基本查询扩展方法的局限性,提出了在特定领域问答系统中将命名实体识别与基本查询扩展方法相结合对答案文本检索进行查询扩展的方法。该方法标注旅游领域18个类别的命名实体,并使用条件随机场理论建立实体识别模型,将识别模型以线性插值方式分别融合到本文选用的基于TF-IDF、互信息和局部上下文分析3种基本查询扩展方法中,再选取出扩展词进行查询。在旅游领域数据集上的实验结果表明,该方法在3种基本查询扩展方法基础上使准确度提高15.8%以上,其中结合领域命名实体识别和局部上下文分析的查询扩展方法的准确度提高了21.4%。 邹俊杰 余正涛 刘跃红 刘跃红 宗焕云关键词:查询扩展 命名实体识别 文本检索 基于中文人名用字特征的性别判定方法 被引量:2 2014年 基于中文人名用字具有的较强的性别区分性,提出一种利用朴素贝叶斯分类器对中文人名性别进行判定的方法,该方法将每个中文人名中的第一个字(字1)、第二个字(字2)、第一和第二个字组合(字1字2)作为区分特征,利用朴素贝叶斯分类方法对该人名所属性别进行判定。在412 775个中文人名语料上采用10重交叉验证法进行训练和测试,对比了依据不同区分特征组合进行性别判定的准确率,分别采用字1,字2,字1+字2,字1+字1字2,字2+字1字2,字1+字2+字1字2(全部区分特征)构成的特征组合进行性别判定,平均判定准确率分别为72.75%,86.92%,88.84%,87.37%,89.35%,90.06%,取得的最好平均判定准确率为90.06%。 于江德 赵红丹 郑勃举 余正涛关键词:中文人名 性别判定 朴素贝叶斯分类 结合FCA与Jena的领域本体半自动构建方法研究 被引量:5 2013年 针对本体构建中难于发现隐含知识及本体编码效率低下等问题,提出了一种结合FCA与Je-na的领域本体半自动构建方法。该方法根据实例集合和它们所具有的属性集合来构造初始本体,即形式背景,接着构造概念格,将本体可视化,进而发现隐含的概念以及概念间的关系;再将这些概念及其之间的关系映射成本体主干;最后根据提供的属性值丰富本体主干。基于Jena选用OWL对以上建立的本体原型进行编码和形式化,完成领域本体的构建。以云南旅游领域为背景构建旅游本体原型系统,证明了本文所提出的本体构建方法的有效性,并在领域可移植性、本体构建效率及自动化程度等方面进行系统评测,取得良好效果。经与人工构建结果对比,证明了构建结果的有效性。 田维 郭剑毅 余正涛 线岩团 王炎冰关键词:形式概念分析 JENA 形式化 利用问句语义结构构建旅游领域数据库查询 2009年 为了提高数据库查询的准确率,提出一种利用问句语义结构构建领域自然语言数据库查询方法。该方法通过定义问句语义模板,借助领域知识,对领域问句进行语义分析,提取问句语义块,并通过语义模式匹配实现问句语义模板向SQL的转换,从而实现自然语言数据库查询。在云南旅游领域实验的结果表明,该方法取得了较好的效果。 王凤林 余正涛 毛存礼 郭剑毅关键词:自然语言查询 数据库查询 三位一体字标注的汉语词法分析 被引量:4 2015年 针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。 于江德 胡顺义 余正涛关键词:汉语词法分析 最大熵模型 基于信息熵的半监督领域实体关系抽取研究 被引量:3 2011年 针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。 郭剑毅 雷春雅 余正涛 苏磊 赵君 田维关键词:信息熵 最大熵分类器 融合特征约束模型的纳西-汉语双语词语对齐算法 被引量:2 2011年 针对纳西语、汉语因句法结构差异较大而导致双语词语自动对齐较为困难的问题,提出一种融合特征约束模型的纳西-汉语双语词语对齐算法.首先在语料中统计纳西-汉语词语区间扭曲和位置转换特性,并由此建立2个双语词语对齐的特征约束模型;然后将提出的特征约束模型融入词语对齐的对数线性模型框架,并结合最小错误率算法训练模型参数;最终搜索出最佳的词语对齐结果.实验以IBM Model3为词语对齐比较模型,结果表明,该双语词语对齐算法可以使纳西-汉语词语的对齐准确率提升21.9%. 张涛 余正涛 郭剑毅 曹先彬关键词:词语对齐 汉语