付彬
- 作品数:12 被引量:27H指数:4
- 供职机构:北京交通大学更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术理学文化科学更多>>
- 多分类器组合中的基分类器选取方法
- 在数据挖掘领域中,分类是一种非常重要的技术,然而,现有的多种分类技术如贝叶斯,决策树等都是单分类器技术。目前单分类器性能的提升已经达到了一个瓶颈,人们遂提出了多分类器组合的概念。多分类器组合使用多个基分类器进行分类,并综...
- 付彬
- 关键词:数据挖掘多分类器组合
- 文献传递
- 一种贝叶斯网络分类器集群式参数学习的降噪算法被引量:2
- 2010年
- 文中首先分析降噪集成算法采用的样本置信度度量函数的性质,阐述此函数不适合处理多类问题的根源.进而设计更有针对性的置信度度量函数,并基于此函数提出一种增强型降噪参数集成算法.从而使鉴别式贝叶斯网络参数学习算法不但有效地抑止噪声影响,而且避免分类器的过度拟合,进一步拓展采用集群式学习算法的鉴别式贝叶斯网络分类器在多类问题上的应用.最后,实验结果及其统计假设检验分析充分验证此算法比目前的集群式贝叶斯网络参数学习方法得到的分类器在性能上有较显著提高.
- 王中锋王志海付彬
- 关键词:贝叶斯网络BOOSTING算法
- 一种局部打分搜索型的限制性贝叶斯网络结构学习算法
- 限制性贝叶斯网络研究是将贝叶斯分类问题应用于实际的重要环节。以往都是通过对所有网络结点统一控制的,这种限制方法忽略了不同结点的差异性。本文设计了对不同结点有不同限制的网络结构,并基于互信息度量方法,提出了一种可以以各个结...
- 王中锋王志海付彬
- 最大化边际的分类器选取算法
- 2011年
- 在分析了不同的多样性定义的基础上,给出了多样性度量应该考虑的三种因素。结合边际概念,提出了一种新的多样性度量标准。实验结果表明,与当前已有的典型的多样性定义相比,在利用爬山法进行分类器选取时,使用该方法所选出的分类器子集在大多数数据集合上都有更好的分类性能。
- 付彬王志海王中锋
- 关键词:分类器多样性分类器组合
- 一种启发式多标记分类器选择与排序策略被引量:2
- 2013年
- 在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。
- 李哲王志海何颖婧付彬
- 关键词:文本分类数据挖掘
- 一种贝叶斯网络分类器集成式参数学习的降噪算法
- 在限制性贝叶斯网络学习中,集成式学习方法可以用于不受数据集合大小限制的鉴别式参数学习,但其对噪声过于敏感,容易引起过度拟合。控制样本权重的方法是抑制噪声影响的一种重要途径,在此过程中的样本置信度度量函数对数据集合及其分类...
- 王中锋王志海付彬
- 关键词:贝叶斯网络
- 一种局部打分搜索型限制性贝叶斯网络结构学习算法被引量:5
- 2009年
- 贝叶斯网络是用概率方法解决分类问题的有效工具,但学习贝叶斯网络是一个non-deterministic polynomial-time(NP)难题.以往的限制性学习算法大都假设网络结构中的结点具有基本相同的父结点数目,这往往与现实不相符的.为了学习更符合实际数据分布的限制性网络结构,进一步提高分类器的性能,本文对网络中每一个结点单独限制其父结点的数目,各个结点间是否存在父子关系是由它们之间的依赖强度所决定的.本文采用条件互信息方法度量依赖关系,这是因为条件互信息方法不但能够度量网络中各个结点之间的依赖关系,而且能够从整体上对网络结构性能进行打分.条件互信息的分解属性可以将这两者联系起来,通过对每一个结点局部限制的策略,可实现整体网络结构优化.基于这些思想,本文提出了一种学习限制性贝叶斯网络结构的局部打分搜索算法,通过此算法在20个加州大学欧文分校(University of California,IV Vine,UCI)的标准数据挖掘数据集合上与BDeu打分算法,基于最小描述长度的打分算法(minimum description length,MDL)打分算法,基于条件互信息的打分算法(conditional mutual information,CMI)打分算法和tree augmented naive bayes(TAN)算法等的比较,充分表明了本文所提出的策略具有较低的平均误分类率.
- 王中锋王志海付彬
- Boosting算法中基分类器权重的动态赋值被引量:9
- 2009年
- Boosting是一种有效的分类器组合方法,其通过加权投票来组合多个基分类器进行分类。在对基分类器进行权重赋值时,该算法采用了以基分类器在当前训练集上的错误率的某种变形来对基分类器进行权重赋值,这是一种静态的赋值方法。介绍一种动态地对基分类器进行赋权重的方法,这种方法利用当前测试实例属于某个被错误分类数据子集的程度,并按照程度的大小给相应的基分类器赋适当的权重。跟静态赋权重相比,这种方法考虑了测试实例属性取值的不同,进而能动态地调整基分类器的权重,从而达到进一步优化分类性能的目的。实验表明,动态权重赋值的方法在大多数情况下跟静态赋值相比具有更好的分类性能。
- 付彬王志海王中锋
- 关键词:组合分类器BOOSTING方法
- Boosting算法中基分类器权重的动态赋值方法
- Boosting是一种有效的分类器组合方法,其通过加权投票来组合多个基分类器的方式来进行分类。在对基分类器进行权重赋值时,一般Boosting算法根据基分类器在当前训练集合上的错误率或某种变形来对基分类器分配权重。显然这...
- 付彬王志海王中锋
- 关键词:元学习组合分类器BOOSTING方法
- 基于标记依赖关系的多标记学习算法研究
- 多标记分类是机器学习和数据挖掘中一个重要的研究问题,其目的是为了预测实例同时具有的多个标记。在大多实际应用中,实例的多个标记之间存在着潜在的依赖关系,发掘其中蕴含的有用信息往往能够有效地提高分类模型的学习性能。因此,如何...
- 付彬
- 关键词:数据挖掘目标函数
- 文献传递