顾鑫 作品数:9 被引量:44 H指数:4 供职机构: 江南大学数字媒体学院 更多>> 发文基金: 国家自然科学基金 江苏省普通高校研究生科研创新计划项目 江苏省“333高层次人才培养工程”基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于RSDE的领域自适应概率密度估计方法 被引量:2 2013年 同一应用领域不同时间、地点或设备,采集的样本数据可能存在扰动、噪音或缺失,如何对样本数据集进行有效的预处理是其进一步应用的前提.针对上述问题,提出一种新的基于压缩集密度估计(RSDE)算法的领域自适应概率密度估计方法A-RSDE,通过学习源域(训练域)知识,使目标域(测试域)概率密度估计更接近真实概率密度分布,并用基于近似最小包含球的核心集快速算法求解A-RSDE,将其应用于大数据集密度估计.Benchmark和UCI数据集上的实验表明,该算法具有较好的性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 大样本领域自适应支撑向量回归机 被引量:3 2013年 针对回归问题中存在采集数据不完整而导致预测性能降低的情况,根据支撑向量回归机(support vector regression,简称SVR)等价于中心约束最小包含球(center-constrained minimum enclosing ball,简称CC-MEB)以及相似领域概率分布差异只与两域各自的最小包含球中心点位置有关的理论新结果,提出了针对大数据集的领域自适应核心集支撑向量回归机(adaptive-core vector regression,简称A-CVR).该算法利用源域CC-MEB中心点对目标域CC-MEB中心点进行校正,从而提高目标域的回归预测性能.实验结果表明,这种领域自适应算法可以弥补目标域缺失数据的不足,大大提高回归预测性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 支撑向量回归 大数据集 基于多源的跨领域数据分类快速新算法 被引量:9 2014年 研究跨领域学习与分类是为了将对多源域的有监督学习结果有效地迁移至目标域,实现对目标域的无标记分类.当前的跨领域学习一般侧重于对单一源域到目标域的学习,且样本规模普遍较小,此类方法领域自适应性较差,面对大样本数据更显得无能为力,从而直接影响跨域学习的分类精度与效率.为了尽可能多地利用相关领域的有用数据,本文提出了一种多源跨领域分类算法(Multiple sources cross-domain classification,MSCC),该算法依据被众多实验证明有效的"罗杰斯特回归模型"与"一致性方法"构建多个源域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在MSCC的基础上,本文结合最新的CDdual(Dual coordinate descent method)算法,提出了算法MSCC的快速算法MSCC-CDdual,并进行了相关的理论分析.人工数据集、文本数据集与图像数据集的实验运行结果表明,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性.本文的主要贡献体现在三个方面:1)针对多源跨领域分类提出了一种新的"一致性方法",该方法有利于将MSCC算法发展为MSCC-CDdual快速算法;2)提出了MSCC-CDdual快速算法,该算法既适用于样本较少的数据集又适用于大样本数据集;3)MSCC-CDdual算法在高维数据集上相比其他算法展现了其独特的优势. 顾鑫 王士同 许敏关键词:后验概率 领域自适应的最小包含球设计方法 被引量:4 2013年 支持向量域描述(SVDD)算法适用于异常点检测,但对于不同领域样本组的整体快速识别则力不从心.为此,基于SVDD算法提出一种基于最小包含球的领域自适应算法(MEB-DA),并将其发展为基于中心约束型最小包含球的领域自适应法(CCMEB-DA),以满足大样本数据的快速计算.该算法通过计算各自数据组的包含球球心对不同领域数据进行整体校正和相似度识别,具有较好的便捷性和自适应性.将所提出的算法应用于无限保真(WIFI)数据的室内定位和人脸识别检测,均取得了较好的效果,从而验证了所提出算法的有效性和快速性. 顾鑫 王士同 许敏关键词:数据校正 基于最小包含球的大数据集域自适应快速算法 被引量:3 2013年 相同应用领域,不同时间、地点或设备检测到的数据域不一定完整.文中针对如何进行数据域间知识传递问题,提出相同领域的概率分布差异可用两域最小包含球中心点表示且其上限与半径无关的定理.基于上述定理,在原有支持向量域描述算法基础上,提出一种数据域中心校正的领域自适应算法,并利用人造数据集和KDD CUP 99入侵检测数据集验证该算法.实验表明,这种领域自适应算法具有较好的性能. 许敏 王士同 顾鑫 俞林关键词:领域自适应 大数据集 基于最小包含球的领域迁移学习新方法 被引量:4 2013年 传统机器学习方法认为不同的学习任务彼此无关,但事实上不同的学习任务常常相互关联。迁移学习试图利用任务之间的联系以及过去的学习经验加速对于新任务的学习。将最小包含球(Minimum Enclosing Ball,MEB)算法与Parzen Windows概率估计公式相结合,提出了一种新的迁移学习算法MEBTL((Minimum Enclosing Ball Trans-fer Learning)。该算法同时结合CVM(Core Vector Machines)理论提出了CCMEBTL(Center Constrained MinimumEnclosing Ball Transfer Learning)算法,其可以在不同领域之间完成大样本的迁移学习。作为验证,将其应用在WIFI数据的室内定位、人脸识别检测上,并取得了较好的效果。 顾鑫 王士同关键词:数据校正 领域自适应 TL-SVM:一种迁移学习算法 被引量:14 2014年 迁移学习旨在利用大量已标签源域数据解决相关但不相同的目标域问题.当与某领域相关的新领域出现时,若重新标注新领域,则样本代价昂贵,丢弃所有旧领域数据又十分浪费.对此,基于SVM算法提出一种新颖的迁移学习算法—–TL-SVM,通过使用目标域少量已标签数据和大量相关领域的旧数据来为目标域构建一个高质量的分类模型,该方法既继承了基于经验风险最小化最大间隔SVM的优点,又弥补了传统SVM不能进行知识迁移的缺陷.实验结果验证了该算法的有效性. 许敏 王士同 顾鑫关键词:支持向量机 大样本多源域与小目标域的跨领域快速分类学习 被引量:6 2014年 传统的跨领域分类学习一般考虑均衡的单一源域到单一目标域的学习,但在现实世界中数据往往是不平衡的.当用于解决不平衡分类问题时,由于分类器的偏向性,其分类精度、抗噪性能往往有不同程度的下降.为了克服域间不平衡性,提出了一种不平衡多源跨领域分类算法(imbalance multisource classfication on cross-domain learning,IMCCL),该算法依据被众多实验证明有效的"逻辑回归模型"与"后验概率最大法则"构建多个训练域分类器并综合指导目标域的数据分类.为了充分高效利用大样本的源域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了IMCCL的快速算法(IMCCL-CDdual).将其应用到文本数据分类与图像识别分类的实验结果表明:该算法具有较高的识别率、快速的识别速度和抗干扰性和领域自适应性. 顾鑫 王士同关键词:逻辑回归 后验概率 不平衡 基于数据分类的领域自适应新算法 被引量:1 2014年 一般的机器学习都假设训练数据与测试数据分布相同,而领域自适应算法则是在不同数据分布条件下进行知识传递和学习,在数据挖掘、数据校正、数据预测等领域有着广泛的应用。支持向量机SVM的主要思想是针对二分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论由Tsang I提出的,是一种改进了核向量机CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。而CCMEB理论同样适用于二分类的SVM数据集。将SVM理论、CCMEB理论与概率分布理论相结合,提出了一种全新的基于数据分类的领域自适应算法CCMEB-SVMDA,该算法通过计算各自分类数据组的包含球球心,能够有效地对不同领域数据进行整体校正和相似度识别,具有较好的便捷性和自适应性。在UCI数据、文本分类等数据上对该算法进行了验证,取得了较好的效果。 顾鑫 王士同关键词:支持向量机 领域自适应