何田中
- 作品数:15 被引量:21H指数:3
- 供职机构:闽南师范大学更多>>
- 发文基金:国家自然科学基金福建省自然科学基金更多>>
- 相关领域:自动化与计算机技术理学更多>>
- 基于虚根节点的ID3改进算法
- 2012年
- 与其他分类技术相比较,ID3算法具有耗时少、速度快特点.然而,ID3算法分类规则少、无匹配率高,从而导致其分类准确率不高,尤其在小数据集上表现更为明显.针对ID3上述缺点,我们提出了一个改进ID3算法VRID3:首先,VRID3创建一个虚根节点,然后找出两个"最好"属性生成虚根节点的两棵子树,从而提高测试实例的匹配率;其次,测试实例时,优先使用第一子树判断实例,如果第一子树没有匹配到,则使用第二子树判断该实例.实验结果表明,基于虚根节点的ID3算法具有更高的准确率.
- 何田中黄再祥
- 关键词:数据挖掘决策树
- 粒子群算法在PERT网络优化问题中的应用被引量:3
- 2008年
- 针对项目工程PERT网络计划的费用-优化问题,本文提出了一种改进的粒子群算法。该算法引入了可行性优先的约束处理技术,不需要罚因子,对问题依赖小。仿真实验表明了该算法的可行性和有效性。
- 田谦益何田中
- 关键词:粒子群算法
- 基于选择度的分类规则学习算法
- 2014年
- 规则式分类器通常使用单一度量选择属性值,然而单一度量会导致很多属性值具有相同的度量值,从而无法选择出"好"的属性值。此外,规则式分类器通常提取置信度为100%的规则,致使规则提取过程比较费时,并且所得到的规则支持度较低。针对上述不足,提出新的属性值度量——选择度。选择度是基于信息熵、类支持度及偏离度3种度量的结合,能更好地区分属性值的优劣。在此基础上,提出一种基于选择度的分类规则学习算法LRSM。在LRSM算法中,当规则包含的负实例数小于给定域值时,该规则被抽取,删除被此规则覆盖的实例,抽取下一条规则。实验结果表明,与FOIL算法相比较,LRSM算法提高了分类准确率,同时明显地减少了分类所消耗的时间。
- 何田中周忠眉黄再祥
- 关键词:数据挖掘
- 基于双属性节点部分匹配的决策树改进算法
- 2015年
- 在决策树算法中,即使存在两个"最好"属性,也只是随机选择一个作为根或节点属性.因此,决策树算法产生的分类规则较少.此外,决策树算法采用全匹配测试实例,测试实例最多匹配一条分类规则甚至没有匹配,进而影响分类准确率.针对该问题,提出了基于双属性节点部分匹配的决策树改进算法(DAID3):首先,如果存在两个信息熵相等或相近的"最好"属性,DAID3算法选择两个属性构建节点,它们的属性值及组合作为分枝.因此,每个训练实例可能被多条分类规则覆盖.其次,判断新实例时,在分枝节点上可能匹配到多条路径,为了选择最好路径,为每个分枝节点设置了节点强度.最后,如果不存在一条从根节点到叶子节点的路径全匹配测试实例,则找出部分匹配该实例的路径,返回该路径的终节点强度最大的类标值.为了便于部分匹配时返回强度最大的类标值,为每一个分枝节点设置节点类标值.实验结果表明,与决策树算法相比,DAID3算法具有分类规则多且有更高的分类准确率.
- 何田中黄再祥
- 关键词:不平衡数据
- 基于Rough集的规则抽取技术被引量:2
- 2007年
- 数据分类是数据挖掘的一个重要功能,神经网络以其良好的抗噪性和鲁棒性而成为一种广泛使用的数据挖掘工具,尤其是运用在数据分类中.但是,神经网络对用户来说是一个黑箱,所获得的知识隐含在神经网络的连接权中而难以理解.针对这种情况,建立了一个基于神经网络的数据分类系统模型,通过数据处理、网络训练、规则抽取等几个阶段,达到将获得的知识清晰化的目的.在系统中,首先对连续性数据作规一化和对语义性数据进行编码;然后经过网络训练而获取知识;规则抽取采用功能性方法:即把神经网络视为黑盒,随机产生输入得到相应的输出组成实例,然后采用Rough集的方法进行约简得出规则.
- 何田中程从从
- 关键词:数据挖掘神经网络ROUGH集
- 基于相关规则的不平衡数据的关联分类被引量:3
- 2014年
- 许多研究表明关联分类具有较高的分类准确率,然而,大多数关联分类基于"支持度-置信度"框架,在不平衡数据集中,置信度和支持度都偏向产生多数类的规则,因此,少数类的实例容易被错误分类。针对上述问题,提出了一种基于相关规则的不平衡数据的关联分类算法。该算法挖掘频繁且互关联的项集,在以该项集为前件的分类规则中选取提升度最大的规则。规则按结合了提升度、置信度和补类支持度(CCS)的规则强度进行排序。实验表明,该算法取得了较高的平均分类准确率且在分类少数类的实例时具有更高的准确率。
- 黄再祥周忠眉何田中
- 关键词:数据挖掘不平衡数据
- Rough集在数据挖掘中的应用
- 本文描述Rough集理论应用于特征归约的基本思想:利用南昌大学刘清教授提出的分明矩阵简化方法,找出最小特征子集,其最大的优点是从数据本身获取信息,而不需要外部的信息,因而得出的属性子集能够较好地代表原属性集;另外分明矩阵...
- 何田中程从从
- 关键词:粗糙集理论数据归约计算机数学
- 文献传递
- 改进的多类不平衡数据关联分类算法被引量:11
- 2015年
- 由于多类不平衡数据中某些类别的样例数特别少,使得基于支持度-置信度的关联分类方法在这些类上产生的规则较少,甚至没有,从而导致这些类别的样例很难准确分类.针对此问题,文中提出改进的多类不平衡数据关联分类算法.为了提取更多小类的规则,根据项集与类别的正相关度提取规则.为了提高小类规则的优先级,提出利用项集类分布规则强度排序规则.此外,为解决规则冲突或无规则匹配问题,结合KNN分类新样例.实验表明,与基于支持度-置信度的关联分类方法相比,文中算法能提取更多的小类规则,且提高小类规则的优先级,在多类不平衡数据上取得较高的G-mean值和F-score值.
- 黄再祥周忠眉何田中郑艺峰
- 关键词:数据挖掘不平衡数据相关度
- 基于权重距离的优势边界小类样本合成算法
- 2024年
- 提出基于权重距离的优势边界小类样本合成算法(ABWD)来克服数据类别不平衡的问题.ABWD算法具有如下特点:1)定义权重距离,并基于该距离选取样本近邻;2)根据样本近邻确定该样本是否为小类的边界样本;3)对每个小类的边界样本确定其合成位置与合成数量,使该小类样本合成后近邻中小类个数不少于大类的个数,确保该小类样本具有优势边界.实验结果表明,与其他典型过抽样算法相比,算法较大提高了小类的分类性能,在G-mean、F-measure及查全率三种度量上均取得很好的实验结果.
- 何田中郑艺峰郑艺峰
- 关键词:数据挖掘不平衡数据过抽样
- 神经网络分类器及其规则抽取技术的研究
- 数据分类是数据挖掘的一个重要功能,神经网络以其良好的抗噪性和鲁棒性而成为一种广泛使用的数据挖掘工具,尤其是运用在数据分类中。但是,神经网络对用户来说是一个黑箱,所获得的知识隐含在神经网络的连接权中而难以理解。该文针对这种...
- 何田中
- 关键词:数据挖掘神经网络ROUGH集数据分类
- 文献传递