您的位置: 专家智库 > >

福建省自然科学基金(2013J01259)

作品数:10 被引量:16H指数:2
相关作者:黄再祥何田中周忠眉郑艺峰林培榕更多>>
相关机构:闽南师范大学漳州师范学院更多>>
发文基金:福建省自然科学基金国家自然科学基金漳州市科技计划项目更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 10篇自动化与计算...

主题

  • 8篇数据挖掘
  • 5篇不平衡数据
  • 3篇关联分类算法
  • 2篇置信度
  • 1篇信息熵
  • 1篇学习算法
  • 1篇余度
  • 1篇冗余
  • 1篇冗余度
  • 1篇准确率
  • 1篇相关度
  • 1篇决策树
  • 1篇懒散
  • 1篇分类准确率
  • 1篇M算法
  • 1篇LRS
  • 1篇不平衡

机构

  • 8篇闽南师范大学
  • 2篇漳州师范学院

作者

  • 8篇何田中
  • 8篇黄再祥
  • 5篇周忠眉
  • 2篇郑艺峰
  • 1篇全秀祥
  • 1篇林培榕

传媒

  • 2篇计算机工程与...
  • 2篇漳州师范学院...
  • 2篇闽南师范大学...
  • 1篇模式识别与人...
  • 1篇计算机工程
  • 1篇计算机科学
  • 1篇济南大学学报...

年份

  • 2篇2017
  • 2篇2015
  • 4篇2014
  • 2篇2013
10 条 记 录,以下是 1-10
排序方式:
基于类间相关率的不平衡数据的关联分类算法
2017年
针对因不平衡数据中小类实例少、关联分类算法挖掘到小类规则少且小类规则的置信度较低,使得小类规则排序优先级低,从而导致小类的分类准确率较低的问题,提出类间相关率度量规则前件与预测类别相对于其他每一类别的相对相关程度;利用类间相关率挖掘规则得到更多小类规则;综合考虑规则前件、预测类别、规则前件补集、预测类别补集之间的关系,提出新的规则强度度量方法,以提高小类排序时的优先级。结果表明,本文中的算法能有效地提高不平衡数据中小类的查全率,进而较大地改善了不平衡数据的查全率几何平均值。
黄再祥周忠眉何田中
关键词:数据挖掘
基于相关规则的不平衡数据的关联分类被引量:3
2014年
许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。
黄再祥周忠眉何田中
关键词:数据挖掘不平衡数据
基于选择度的分类规则学习算法
2014年
规则式分类器通常使用单一度量选择属性值,然而单一度量会导致很多属性值具有相同的度量值,从而无法选择出"好"的属性值。此外,规则式分类器通常提取置信度为100%的规则,致使规则提取过程比较费时,并且所得到的规则支持度较低。针对上述不足,提出新的属性值度量——选择度。选择度是基于信息熵、类支持度及偏离度3种度量的结合,能更好地区分属性值的优劣。在此基础上,提出一种基于选择度的分类规则学习算法LRSM。在LRSM算法中,当规则包含的负实例数小于给定域值时,该规则被抽取,删除被此规则覆盖的实例,抽取下一条规则。实验结果表明,与FOIL算法相比较,LRSM算法提高了分类准确率,同时明显地减少了分类所消耗的时间。
何田中周忠眉黄再祥
关键词:数据挖掘
一种改进的关联分类算法
2017年
基于支持度-置信度的关联分类是一项重要的分类算法,这种关联分类算法先构建频繁项集,然后通过置信度的阈值来选取规则,容易产生质量不高的规则。针对这个问题,提出了一种改进关联分类算法:首先,选取大量的属性值对建立起条件小训练集;其次,每条规则主体通过选取条件小训练集中最好属性值对连接生成;最后,采用实例覆盖技术覆盖小训练集的每个实例,构建具有较高质量的分类器。在25个UCI数据集上的实验结果表明,所提出的改进关联分类算法的准确率得到了显著提高。
全秀祥周忠眉黄再祥
关键词:数据挖掘置信度分类准确率
基于双属性节点部分匹配的决策树改进算法
2015年
在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率.
何田中黄再祥
关键词:不平衡数据
改进的多类不平衡数据关联分类算法被引量:11
2015年
由于多类不平衡数据中某些类别的样例数特别少,使得基于支持度-置信度的关联分类方法在这些类上产生的规则较少,甚至没有,从而导致这些类别的样例很难准确分类.针对此问题,文中提出改进的多类不平衡数据关联分类算法.为了提取更多小类的规则,根据项集与类别的正相关度提取规则.为了提高小类规则的优先级,提出利用项集类分布规则强度排序规则.此外,为解决规则冲突或无规则匹配问题,结合KNN分类新样例.实验表明,与基于支持度-置信度的关联分类方法相比,文中算法能提取更多的小类规则,且提高小类规则的优先级,在多类不平衡数据上取得较高的G-mean值和F-score值.
黄再祥周忠眉何田中郑艺峰
关键词:数据挖掘不平衡数据相关度
基于多置信度的不平衡数据分类算法
2014年
传统的分类算法通常设置统一的最小置信度提取规则.如果训练数据集是不平衡的数据,统一置信度的分类算法在小类的准确率不高.本文提出了一种基于训练集类分布的多置信度不平衡数据分类算法CBMI.在CBMI算法中,根据训练数据中类的分布设置不同的最小置信度提取规则,小类置信度的临界值比大类置信度低.此外,算法CBMI综合三种度量选择"好"的属性值.实验结果表明,基于多置信度不平衡数据分类算法CBMI提高了小类数据分类的正确率.
何田中黄再祥
关键词:数据挖掘不平衡数据
基于信息熵的懒散关联分类方法
2013年
懒散关联分类针对每个待分类实例的特征进行分类关联规则的挖掘,通常能取得较高的准确率.然而,由于某些数据集中存在一些质量不好的特征,将影响懒散关联分类的准确率.此外,分类耗时较长是懒散关联分类另一个缺点.针对上述问题,提出了一种基于信息熵的懒散关联分类算法.该算法以信息熵度量属性值的质量,仅选取每个待分类实例中最好的k个属性值,将得到规模较小且与待分类实例紧密相关的训练子集,从中高效挖掘到高质量的规则.实验表明,与懒散关联分类相比,基于信息熵的懒散关联分类方法提高了分类准确率,并极大减少了运行时间.
黄再祥何田中全秀祥郑艺峰
关键词:数据挖掘信息熵
基于改进关联分类的两次学习方法被引量:1
2014年
关联分类通常产生大量的分类规则,导致在分类新实例时经常产生规则冲突问题。针对这种规则冲突问题,提出了一种基于改进关联分类的两次学习框架。利用频繁且互关联的项集产生分类规则改进关联分类算法,有效减少了规则数。应用改进的关联分类算法产生的一级规则一次性分离出训练集中规则冲突的所有实例。然后,在冲突实例上应用改进的关联分类算法进行第二次学习得到二级规则。分类新实例时,首先利用第一级规则进行分类。如果出现规则冲突,则利用第二级规则分类该实例。实验结果表明,基于改进关联分类的两次学习方法降低了规则冲突比率,并且显著提高了分类准确率。
黄再祥周忠眉何田中
关键词:数据挖掘
基于邻域互信息最大相关性最小冗余度的特征选择被引量:1
2013年
特征选择是一种重要的数据预处理步骤,其中互信息是一类重要的信息度量方法.本文针对互信息不能很好地处理数值型的特征,介绍了邻域信息熵与邻域互信息.其次,设计了基于邻域互信息的最大相关性最小冗余度的特征排序算法.最后,用此算法选择前若干特征进行分类并与其它算法比较分类精度.实验结果表明本文提出算法在分类精度方面且优于或相当于其它流行特征选择算法.
林培榕
共1页<1>
聚类工具0