李军
- 作品数:11 被引量:100H指数:4
- 供职机构:吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室更多>>
- 发文基金:吉林省科技发展计划基金国家科技支撑计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术理学金属学及工艺更多>>
- 一种新的不平衡数据学习算法PCBoost被引量:63
- 2012年
- 现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost.算法以信息增益率为分裂准则构建决策树,作为弱分类器.在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正"扰动",删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势.
- 李雄飞李军李军董元方
- 关键词:数据挖掘不平衡数据
- XML文档分类的IL-AdaBoost算法被引量:3
- 2011年
- 提出一种XML文档分类算法——IL-AdaBoost。算法以XML频繁变化子结构为特征构建决策树桩,作为boosting算法的弱分类器,并改进了AdaBoost算法;利用泊松过程模拟新增XML文档的生成,反映XML文档随时间增加的特性,更新样本分布,实现增量学习。利用采样改善基本分类器的差异性,提高集成学习效果。
- 董元方李雄飞李军李军
- 关键词:人工智能ADABOOST
- 一种新的分类器性能评估方法
- 2012年
- 针对类不平衡或类分布偏斜数据分类器性能评估问题,提出了一种不平衡数据分类器的性能评估方法——加权AUC(wAUC),为区分不同类别上的正确率对总体性能的不同贡献,在计算ROC曲线下方面积的加权值时,根据真正率TPrate的取值,对不同区域采用不同的权值,使得评估度量更关注于正类准确度。讨论了权值函数应具有的性质,给出了wAUC的性质分析。理论分析和实验结果表明,加权AUC优于OP和AUC。
- 李军李军李雄飞董元方
- 关键词:计算机软件与理论不平衡数据AUC
- 数据挖掘中平衡偏斜训练集的方法研究被引量:3
- 2012年
- 分类是数据挖掘的重要任务之一.训练分类器的训练集可能是偏斜数据.传统分类算法处理偏斜训练集,通常会使少数类别样例的分类精度很低.已有的偏斜训练集平衡算法都是针对只有两种目标类的情况.为平衡拥有多种目标类的偏斜训练集,基于同类样例差异较小的思想给出SSGP算法,在同类样例附近增加少数类别样例,且使多种少数类别样例同速增加.并证明SSGP算法不会向数据集中添加噪声样例.为提高效率,用样例取模取代大量相异度计算.实验表明,只需执行一遍SSGP算法就能同时提高多种少数类别样例的分类精度.
- 李雄飞李军李军屈成伟刘丽娟
- 一种基于欠采样的不平衡数据分类算法被引量:21
- 2011年
- 针对不平衡数据学习问题,提出一种基于欠采样的分类算法。对多数类样例进行欠采样,保留位于分类边界附近的多数类样例。以AUC为优化目标,选择最恰当的邻域半径使数据达到平衡,利用欠采样后的样例训练贝叶斯分类器,并采用AUC评价分类器性能。仿真数据及UCI数据集上的实验结果表明,该算法有效。
- 程险峰李军李军
- 关键词:不平衡数据欠采样
- 基于线性分段与HMM的时间序列分类算法被引量:4
- 2011年
- 抽象出时间序列的多段线性特征,并提出一种时间序列分类算法.该算法包括3个模块:导数估值函数,线性分段方法,DDHMM模型(基于HMM).首先,利用导数估值函数与线性分段方法检测多段线性特征,若满足多线段特征,则将时间序列转化为特定结构的观察值序列;然后,利用训练观察值序列训练DDHMM模型,通过比较各模型产生测试观察值序列的概率值进行分类.实验表明,针对满足多段线性特征的时间序列,该算法具有较高的分类精度,应用在UCI数据集和实际工程中,分类效果好.
- 尹锐李雄飞李军彭宏
- 关键词:隐马尔可夫模型
- 一种新的不平衡数据学习的性能评估方法
- 在不平衡数据学习问题中,不同类别上的正确率对总体性能有不同的贡献,而AUC并没有反映这一点。本文提出一种新的分类器性能评估度量wAUC和一种新颖的求取wAUC值的方法。这种方法对于TPrate取不同值的区域,采用不同的权...
- 董元方李雄飞李军赵海英
- 关键词:AUC
- 一种不平衡数据渐进学习算法被引量:4
- 2010年
- 针对不平衡数据学习问题,提出一种采用渐进学习方式的分类算法。根据属性值域分布,逐步添加合成少数类样例,并在阶段分类器出现误分时,及时删除被误分的合成样例。当数据达到预期的平衡程度时,用原始数据和合成数据训练学习算法,得到最终分类器。实验结果表明,该算法优于C4.5算法,并在多数数据集上优于SMOTEBoost和DataBoost-IM。
- 董元方李雄飞李军
- 关键词:不平衡数据
- 基于分辨粒度的gROC曲线分析方法被引量:5
- 2013年
- ROC曲线是模型选择的一种重要方法,但ROC曲线的不确定性影响了模型选择的准确性.基于分辨粒度,从反映得分的不确定性的角度提出gROC和gAUC的概念,从理论上讨论了gROC的若干性质.在给出其算法之后,利用双正态模型检验了gROC的合理性.在此基础上,提出了两个模型选择度量——AUC和AUC,并在UCI数据集上验证了该模型选择度量的高效性.实验结果表明,gROC能够有效反映ROC曲线的不确定性,基于AUC和AUC的模型选择方法优于基于AUC或sAUC的模型选择方法,在某些情况下,gROC具有更强的对分类器性能的比较能力.
- 董元方李雄飞李军李军
- 关键词:ROC曲线粒度
- 基于整数数据的文档压缩编码方案被引量:4
- 2016年
- 提出了针对整数数据的CSN-2压缩算法,并将其应用于任意文档的压缩,且CSN-2压缩算法不需额外的数据支持。通过研究CSN-2解压算法,提出了可以正确还原原数据的CSNE-2解压算法,并对解压算法结果的唯一性和正确性进行了理论及实验检验。并通过与其他压缩方案的实验比较,结果表明CSN-2压缩算法对整数型文档具有较高的压缩率,且对任意文档均具有压缩效果。
- 特日跟江晟李雄飞李军
- 关键词:计算机软件数据压缩文本压缩