您的位置: 专家智库 > >

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 1篇短文
  • 1篇台下
  • 1篇文本分类
  • 1篇关联规则
  • 1篇CACHE
  • 1篇SUPERS...
  • 1篇SPARK

机构

  • 2篇中国人民大学

作者

  • 2篇李翠平
  • 2篇陈红
  • 2篇孙辉
  • 2篇王雯
  • 1篇张兵
  • 1篇范旭

传媒

  • 1篇计算机应用
  • 1篇计算机科学与...

年份

  • 1篇2017
  • 1篇2016
2 条 记 录,以下是 1-2
排序方式:
基于Supersonic的并行分组聚集
2016年
针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash表并行分组聚集(TLSHPGA)算法、桶锁共享Hash表并行分组聚集(BLSHPGA)算法、节点锁共享Hash表并行分组聚集(NLSHPGA)算法,且在不同的分组势集、不同的线程数的情况下,针对上述4种算法做了多组实验。通过对比3种不同粒度的共享Hash表并行分组聚集算法的加速比,得出NLSHPGA算法在加速比和并发度两方面表现最好,部分查询可达到10倍加速比;通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss内存使用等情况,得出NLSHPGA算法在分组势集大于8时,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少。
张兵孙辉范旭李翠平陈红王雯
关键词:SUPERSONIC
Spark平台下的短文本特征扩展与分类研究被引量:9
2017年
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。
王雯赵衎衎李翠平陈红孙辉
关键词:关联规则
共1页<1>
聚类工具0