吴高巍 作品数:11 被引量:47 H指数:3 供职机构: 中国科学院自动化研究所 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 安徽省优秀青年科技基金 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
一种基于空间映射及尺度变换的聚类框架 被引量:2 2010年 传统聚类算法通常建立在显式的模型之上,很少考虑泛化模型以适应不同的数据,由此导致了模型不匹配问题。针对此问题,该文提出了一种基于空间映射(Mapping)及尺度变换(Rescaling)的聚类框架(简称M-R框架)。具体而言,M-R框架首先将语料映射到一组具有良好区分度的方向所构建的坐标系中,以统计各个簇的分布特性,然后根据这些分布特性对各个坐标轴进行尺度变换,以归一化语料中各个类簇的分布。如上两步操作伴随算法迭代执行,直至算法收敛。该文将M-R框架应用到K-means算法及谱聚类算法上以验证其性能,在国际标准评测语料上的实验表明,应用了M-R框架的K-means及谱聚类在所有语料集上获得了全面的性能提升。 曾依灵 许洪波 吴高巍 程学旗 白硕关键词:计算机应用 中文信息处理 文本聚类 空间映射 面向患者的智能医生框架研究 被引量:3 2018年 目前,国内对中文智能医生的研究相对较少,针对患者需求的智能医生研究更少。鉴于此,提出了一种能及时准确地回答患者健康问题的"一问一答"智能医生框架。在该框架中,首先构建一个包含1 126 214个三元组的中文医学知识图谱和一个包含60万记录的问答库;其次提出一种基于依存关系的问题分析算法,以对用户的提问进行分析;再次提出一种将自然语言表述的临床表型数据转换成语义三元组的方法;然后提出一种问题综合评分算法对候选答案对应的问题进行评分;最后实现了一个妇产科智能医生原型系统,并利用真实的问答语料对其进行人工测试,实验结果表明使用该框架构建的智能医生框架可以有效地回答用户的问题。该项成果已成功应用于某公司的健康咨询APP中。 谢刚 吴高巍 吴高巍 任俊宏 牛景昊 张文生关键词:知识图谱 一种文本维度压缩及尺度调整方法以及基于此的分类方法 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本x<Sub>j</Sub>;2)根据训练集中的样本x计算文本x<Sub>j</Sub>待投影的k个方向,其中k为文本x<Sub>j<... 曾依灵 许洪波 吴高巍文献传递 大边缘算法研究 本文在边缘的意义下讨论学习算法,以解决监督与非监督学习问题。主要内容包括:
基于边缘讨论SVM方法的统计学习本质。受此启发,将边缘的概念引入到非监督学习中,并以此为基础,建立η-非监督学习问题的形式化描述。
... 吴高巍关键词:统计学习理论 聚类学习 文献传递 基于后验概率的支持向量机 被引量:24 2005年 在支持向量机 (supportvectormachines ,SVM )中 ,训练样本总是具有明确的类别信息 ,而对于一些不确定性问题并不恰当 受贝叶斯决策规则的启发 ,利用样本的后验概率来表示这种不确定性 将贝叶斯决策规则与SVM相结合 ,建立后验概率支持向量机 (posterioriprobabilitysupportvectorma chine ,PPSVM )的体系框架 并详细讨论线性可分性、间隔、最优超平面以及软间隔算法 ,得到了一个新的优化问题 ,同时给出了一个支持向量的新定义 实际上 ,后验概率支持向量机是建立于统计学习理论(statisticallearningtheory)基础之上 ,是标准SVM的扩展 针对数据 ,还提出了一个确定后验概率的经验性方法 实验也证明了后验概率支持向量机的合理性。 吴高巍 陶卿 王珏关键词:支持向量机 后验概率 一种基于层次结构的科技论文分类模型 被引量:7 2004年 互联网和科学研究的高速发展导致可利用的科技文献的数量急剧增加,为了更有效地利用这些文献、特别是英文文献,迫切需要对它们进行机器自动分类。传统的文本分类算法没有考虑科技文本具有明显层次结构的这一特征,在进行分类时无法达到满意的效果。论文针对这一特征提出了一种基于层次结构的文本分类模型,并对环境类科技论文进行了分类研究。结果表明,该模型能够稳定并有效地提高分类的精度,提高的幅度在1%到24%之间;同时,该模型还具有良好的泛化能力。 姚力群 吴高巍关键词:科技论文 文本分类 一种文本维度压缩及尺度调整方法以及基于此的分类方法 本发明提供一种文本维度压缩及尺度调整方法,包括下列步骤:1)用特征空间的特征向量表示文本x<Sub>j</Sub>;2)根据训练集中的样本x计算文本x<Sub>j</Sub>待投影的k个方向,其中k为文本x<Sub>j<... 曾依灵 许洪波 吴高巍文献传递 η-one-class问题和η-outlier及其LP学习算法 被引量:2 2004年 用SVM方法研究one class和outlier问题 .在将one class问题理解为一种函数估计问题的基础上 ,作者首次定义了 η one class和 η outlier问题的泛化错误 ,进而定义了线性可分性和边缘 ,得到了求解one class问题的最大边缘、软边缘和ν 软边缘算法 .这些学习算法具有统计学习理论依据并可归结为求解线性规划问题 .算法的实现采用与boosting类似的思路 .实验结果表明该文的算法是有实际意义的 . 陶卿 齐红威 吴高巍 章显关键词:OUTLIER 统计学习理论 线性规划问题 BOOSTING 一种基于语料特性的聚类算法 被引量:8 2010年 为寻求模型不匹配问题的一种恰当的解决途径,提出了基于语料分布特性的CADIC(clustering algorithm based on the distributions of intrinsic clusters)聚类算法.CADIC以重标度的形式隐式地将语料特性融入算法框架,从而使算法模型具备更灵活的适应能力.在聚类过程中,CADIC选择一组具有良好区分度的方向构建CADIC坐标系,在该坐标系下统计固有簇的分布特性,以构造各个坐标轴的重标度函数,并以重标度的形式对语料分布进行隐式的归一化,从而提高聚类决策的有效性.CADIC以迭代的方式收敛到最终解,其时间复杂度与K-means保持在同一量级.在国际知名评测语料上的实验结果表明,CADIC算法的基本框架是合理的,其聚类性能与当前领先水平的聚类算法相当. 曾依灵 许洪波 吴高巍 白硕关键词:DISTRIBUTIONS INTRINSIC 文本聚类 适用于非确定分类问题的支持向量机方法 在支持向量机(SVM)中,训练样本总是具有明确的类别信息,而对于一些不确定性问题,这并不恰当.受贝叶斯决策规则的启发,我们考虑利用样本的后验概率来表示这种不确定性.本文将贝叶斯决策规则与SVM相结合,提出后验概率支持向量... 吴高巍 陶卿 王珏关键词:支持向量机 后验概率 模式识别 贝叶斯决策 文献传递