白曦
- 作品数:5 被引量:16H指数:3
- 供职机构:吉林大学更多>>
- 发文基金:国家自然科学基金吉林省科技发展计划基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 一个基于本体主题的中文知识获取方法被引量:6
- 2007年
- 中文语言自身的特点决定了从中文自然语言文档中获取知识是非常困难的。尽管目前对中文的命名实体识别(简称为NER)已经取得了较好的效果,但是如果不借助同义词表或者类似WordNet的中文语言知识库,几乎无法正确地抽取已经识别出的实体之间的关系。文章提出了一个基于本体主题的思想进行中文知识获取的方法,该方法首次将主题思想引入领域本体,由领域专家对原始的领域本体中的概念和属性按照主题进行划分,建立起概念到主题、主题到属性的关联关系。在对一句话进行知识抽取时,通过简单的NER和直接与本体映射的方法可以识别出一句话中的部分概念、个体和属性,利用这些准确识别出的信息可以判定该句话所属的主题;该主题则进一步提供了寻找关系的线索。初步的实验结果表明与没有利用主题信息的方法相比,该方法可以取得更好的召回率和准确率。
- 车海燕孙吉贵荆涛白曦
- 关键词:主题信息知识获取语言知识库知识抽取本体映射召回率
- 融合模拟退火的遗传算法在文档聚类中的应用被引量:3
- 2006年
- 为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融入到遗传算法当中,通过“撒种”操作将模拟退火算法的局部搜索能力以及遗传算法的全局搜索能力结合起来。实验表明,使用该混合算法对文档进行聚类,不仅搜索效率得到了提高,而且准确度优于使用传统的遗传算法。
- 白曦吕晓枫孙吉贵
- 关键词:向量空间模型文档聚类遗传算法模拟退火
- 基于信息抽取的知识生成系统
- 随着互联网技术的迅猛发展以及越来越多的网页被发布,海量的信息以电子文档的形式出现在我们面前。为了及时应对信息大爆炸所带来的严重挑战,人们迫切需要借助一些自动化的工具从海量的信息源中去粗取精,去伪存真,迅速找到自己需要的有...
- 白曦
- 关键词:信息抽取语义网
- 文献传递
- 基于加权向量空间模型的网络搜索被引量:7
- 2007年
- 为了高效地对从Internet上获取的文档进行训练并归类,给出了一种新的分类器模型。该模型在传统的向量空间模型(VSM)中引入了关键词语的加权因子,并在训练文档过程中对文档类型特征向量进行动态优化。这在一定程度上恢复了关键词语实际应具有的权值,方便了阈值的选取,使分类更加准确和高效。实验表明,该分类器分类合理、分类准确性有明显的提高,并具有一定的学习功能。
- 白曦吕晓枫孙吉贵
- 关键词:向量空间模型加权因子阈值
- 维修线性流量阀时的内筒设计问题
- 2007年
- 针对问题1,利用微元法证明了面积特性曲线保持线性的必要条件.探索了内筒孔为四种特殊形状下,线性关系比较良好.利用最小二乘原理建立了无约束条件泛函极值模型.通过对内筒孔曲线的合理假设,得到了线性关系较好的内筒孔曲线形状.针对问题2,利用最小二乘原理建立了有约束条件泛函极值模型,设计出最优内筒孔形状.通过牺牲严格的线性关系使其逐渐满足两个约束条件,设计出最优的内筒孔形状.最后考虑外筒孔磨损情况提出了基于自动控制理论和逆向工程技术等方法.
- 赵彬马莉白曦
- 关键词:最小二乘法