上海市青年科技启明星计划(08QA1403200) 作品数:7 被引量:45 H指数:5 相关作者: 李国正 尤鸣宇 刘天羽 葛雷 陈燕 更多>> 相关机构: 同济大学 上海电机学院 上海大学 更多>> 发文基金: 上海市青年科技启明星计划 国家自然科学基金 上海市高校选拔培养优秀青年教师科研专项基金 更多>> 相关领域: 自动化与计算机技术 更多>>
大脑胶质瘤诊断中不均衡问题的特征选择 被引量:1 2009年 在大脑胶质瘤诊断数据集中,病例样本数通常比正常样本数要少,由此引发了数据不均衡问题下病例诊断的问题。此外,在大脑胶质瘤数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力。为解决这类问题,提出一种基于互信息特征选择的E asyEnsem b le算法来解决大脑胶质瘤诊断中的数据不均衡问题。在UC I数据集和大脑胶质瘤数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力。 刘天羽 李国正关键词:不均衡数据集 互信息 多标记学习的嵌入式特征选择 被引量:15 2009年 维数约减是数据挖掘领域的关键技术.传统的降维方法主要解决单标记学习问题.由于多标记学习问题的复杂性,多标记降维方法很少.直接应用未监督的降维方法到多标记学习中,忽略了类标信息.而通过分解多标记问题为单标记问题,应用现有的有监督降维方法到多标记学习中,忽略了类标间的关系.现有的多标记有监督的降维方法是基于依赖最大化的维数约简(multi-label dimensionalityreduction via depen dence maximization,MDDM),它是一种特征抽取的方法.目前还没有多标记的特征选择方法.因为在多标记学习中如何评估特征,是一个很有挑战性的问题.本文提出一个嵌入式的特征选择方法MEFS(multi-label embedded feature selection),其中采用预报风险准则作为特征的评价准则.在公开评测的yahoo网页分类数据集上进行了两个实验:(1)分析多标记学习的性能指标对特征评估的影响;(2)比较MEFS与MDDM,PCA(主成份分析),LPP(局部保留投影)的降维效果,实验显示MEFS的性能优于新近提出的MDDM等一些流行的多标记降维方法. 葛雷 李国正 尤鸣宇关键词:多标记学习 K近邻 主成分分析 舌体图像分割技术的实验分析与改进 被引量:8 2010年 数字舌像图片的正确分割是中医舌诊自动化技术的关键。因为舌体特征的多样性,经典成熟的分割算法并不适用。首先对近5a来该领域已有工作,尤其是Snake算法的研究进展,分类用临床图片测评总结,讨论各类代表性算法的优缺点。最后在已有3个主流算法基础上通过改进提出了3个新算法,不同程度上提高了已有主流算法舌体分割的效果。 李国正 史淼晶 李福凤 王忆勤关键词:舌诊 SNAKE算法 实验测评 不均衡问题中的特征选择新算法:Im-IG 被引量:9 2010年 机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced-information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。 尤鸣宇 陈燕 李国正滚动轴承故障诊断中数据不均衡问题的研究 被引量:7 2010年 滚动轴承缺陷是导致滚动轴承在运行过程中产生故障的主要原因之一,因此对滚动轴承缺陷诊断技术进行研究具有十分重要的意义。但是,在轴承故障诊断数据集中,故障样本数通常比非故障样本数要少很多,由此引发了数据不均衡情况下故障诊断的问题。以往的研究很少关注这种数据不均衡问题对故障诊断的影响。此外,在故障数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力。为解决这类问题,本文提出了一种基于Fisher准则的EasyEnsemble算法来解决故障诊断中的数据不均衡问题。在UCI数据集和滚动轴承数据集上的实验结果表明,新算法提高了分类器在不均衡数据集上的分类性能和预报能力。 刘天羽 李国正关键词:滚动轴承 故障诊断 不均衡数据集 不均衡故障诊断数据上的特征选择 被引量:6 2009年 不均衡数据在实际应用中广泛存在,它们已对机器学习领域构成了一个挑战,如何有效处理不均衡数据也成为目前的一个新的研究热点.在故障诊断数据集中,故障样本数通常比非故障样本数要少很多,由此引发了数据不均衡问题下故障诊断的问题.以往的研究很少关注这种数据不均衡问题对故障诊断的影响.此外,在故障数据集中有一些冗余甚至是不相关的特征,这些特征降低了学习器的泛化能力.为解决这类问题,提出了一种基于嵌入式特征选择的EasyEnsemble算法来解决故障诊断中的数据不均衡问题.在UCI数据集和柴油发动机数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力. 刘天羽 李国正 尤鸣宇关键词:不均衡数据集 故障诊断 柴油发动机 质谱数据的特征降维新方法 被引量:1 2009年 由于质谱数据的维数较高,处理时运算量也特别大,同时还降低分类精度.研究者提出一些降维方法,产生了较好的效果.一般降维方法分两类:特征提取和特征选择.两类方法各有优劣,本文提出对特征提取的主成分进行特征选择,提出了将几种特征提取方法与特征选择方法结合的框架,来对数据集进行维数约简.在三个质谱数据集上的实验结果证明新提出的框架对于质谱数据有好的效果,加入特征选择后,建模精度得到了提高. 刘立忻 李国正关键词:降维 特征提取