国家自然科学基金(61202018)
- 作品数:4 被引量:14H指数:2
- 相关作者:徐树良王俊红杜丽敏张霞魏巍更多>>
- 相关机构:山西大学山西经济管理干部学院更多>>
- 发文基金:国家自然科学基金山西省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 大数据下基于MapReduce的Dirichlet朴素贝叶斯文本分类算法
- 2017年
- 针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类时存在的数据稀疏、分类不准及效率低的问题,本文提出了一种基于MapReduce的Dirichlet朴素贝叶斯文本分类算法。算法首先根据体征词语义因素以及类内分布情况对权重进行加权调整,以此对的计算公式进行修正;引入了统计语言建模技术中的Dirichlet数据平滑方法来降低数据稀疏对分类性能的影响,并在Hadoop云计算平台采用MapReduce编程模型实现本文算法的并行化。通过测试实验对比分析可知,本文算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,并具有优良的可扩展性和大数据处理能力。
- 胡晓东高嘉伟
- 关键词:朴素贝叶斯文本分类
- 以准核为起点的启发式属性约简被引量:2
- 2015年
- 核是属性约简中的必不可少的部分。通过对核中属性重要程度的差异进行分析,可以发现一些核属性相对于决策的重要度很小,这些属性一定程度上影响了基于约简结果构造的分类器的分类精度。通过将核中一些对决策贡献很小的属性去除,提出了准核的定义,并基于准核构造了一种新的启发式属性约简算法,利用该算法获得的约简中属性数量更少,基于这种约简构造的分类器分类精度更高,实验结果表明了算法的有效性。
- 陈红星魏巍
- 关键词:粗糙集属性约简正域
- 基于Kappa系数的数据流分类算法被引量:7
- 2016年
- 数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。
- 徐树良王俊红
- 关键词:数据流概念漂移