国家自然科学基金(61240046)
- 作品数:2 被引量:7H指数:1
- 相关作者:陈湘涛张超王晶更多>>
- 相关机构:湖南大学更多>>
- 发文基金:国家自然科学基金湖南省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Hadoop的并行共享决策树挖掘算法研究被引量:6
- 2013年
- 共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物。针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT)。该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT)。该算法采用混合数据结构,在计算分裂指标阶段使用属性表结构,在分裂阶段采用数据记录结构。数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是PSDT的0.34左右。实验结果表明,PSDT和HPSDT都具有良好的并行性和扩展性;HPSDT比PSDT性能更好,并且随着数据集的增大,HPSDT的优越性更加明显。
- 陈湘涛张超韩茜
- 关键词:云计算HADOOP
- 面向多数据集的共享显露序列模式挖掘被引量:1
- 2015年
- 考虑到2个或多个数据集的显露序列对学习/知识迁移有用,提出一种特殊的显露序列模式,即共享显露序列模式(SESs),并给出一个基于共享广义后缀树的框架来挖掘共享显露序列模式,同时在挖掘SESs的过程中应用2种新的剪枝策略。从3个方面进行实验评估:SESs挖掘算法的性能分析,SESs的负迁移分析,以及SESs用于提高协同分类准确性分析。研究结果表明:新提出的SESs在时间性能、负迁移影响、提高协同分类准确性上均取得较好的性能。
- 陈湘涛王晶丁平尖
- 关键词:剪枝策略