大连市科学技术基金(2010J21DW019) 作品数:5 被引量:51 H指数:4 相关作者: 张永 李卓然 张红蕊 刘小丹 于静雯 更多>> 相关机构: 辽宁师范大学 大连理工大学 更多>> 发文基金: 大连市科学技术基金 辽宁省科技厅博士启动基金 中国博士后科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种基于Mahalanobis距离的增量聚类算法 被引量:4 2011年 经典的模糊c均值聚类算法对非球型或椭球型分布的数据集进行聚类效果较差。将经典的模糊c均值聚类中的欧氏距离用Mahalanobis距离替代,利用Mahalanobis距离的优点,将其用于增量学习中,提出一种基于马氏距离的模糊增量聚类学习算法。实验结果表明该算法能较有效地解决模糊聚类方法中的缺陷,提高了训练精度。 郑宏亮 王建英关键词:模糊C均值聚类 MAHALANOBIS距离 基于集成的非均衡数据分类主动学习算法 被引量:4 2012年 当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练。预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL(Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC(Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足。实验表明,提出的算法对于非均衡数据具有更高的分类精度。 李卓然 张永关键词:非均衡数据 海量数据离散化算法的并行设计与实现 被引量:1 2014年 连续属性的离散化是机器学习和数据挖掘的重要预处理步骤,如何高效处理海量数据连续属性离散化已成为急需要解决的问题。近年来兴起的Hadoop技术能够有效处理基于海量数据的应用。为此,设计和实现一种基于MapReduce编程模型的连续属性离散化并行算法,并给出算法设计的方法和策略。在保证离散效果的情况下,使用不同大小数据集在不同节点的集群环境下的实验结果表明,所设计的并行离散化算法具有较高的执行效率和较好的可扩展性,适合用于海量数据的快速离散化处理。 张永 张红蕊 路婧威关键词:海量数据 并行化 连续属性离散化 HADOOP 基于主动学习SMOTE的非均衡数据分类 被引量:23 2012年 少数类样本合成过采样技术(SMOTE)是一种典型的过采样数据预处理方法,它能够有效平衡非均衡数据,但会带来噪音等问题,影响分类精度。为解决此问题,借助主动学习支持向量机的分类性能,提出一种基于主动学习SMOTE的非均衡数据分类方法 ALSMOTE。由于主动学习支持向量机采用基于距离的主动选择最佳样本的学习策略,因此能够主动选择非均衡数据中的有价值的多数类样本,舍弃价值较小的样本,从而提高运算效率,改进SMOTE带来的问题。首先运用SMOTE方法均衡小部分样本,得到初始分类器;然后利用主动学习策略调整分类器精度。实验结果表明,该方法有效提高了非均衡数据的分类准确率。 张永 李卓然 刘小丹关键词:不平衡数据集 支持向量机 云计算环境下基于朴素贝叶斯的数据分类 被引量:19 2015年 针对朴素贝叶斯分类算法的特点,提出一种改进的特征选择方法。现代大规模数据分类在单机计算机上训练和测试时间过长,对此,在hadoop分布式平台下设计并实现了基于朴素贝叶斯的数据分类算法。实验结果表明,改进的算法能有效提高分类的正确率,所设计的并行朴素贝叶斯数据分类算法具有较高的执行效率,适用于海量数据的处理与分析。 张红蕊 张永 于静雯关键词:云计算 MAPREDUCE 朴素贝叶斯 数据分类