赵宇亮
- 作品数:6 被引量:3H指数:1
- 供职机构:浙江大学更多>>
- 发文基金:浙江省重大科技专项基金国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于改进DPhyp算法的Impala查询优化被引量:3
- 2013年
- 针对目前基于动态规划查询超图(dynamic programming hypergraphs,DPhyp)优化SQL查询算法产生指数运行时间、传统代价模型难以直接适用于Impala大数据实时查询系统等问题,提出基于改进DPhyp算法的Impala查询优化方法.首先,构建满足左线性树的搜索策略,缩小整个执行计划的搜索空间;接着,综合考虑数据移动代价及Hash join算法运行等关键因素,结合提出的代价模型,生成最佳的join顺序;最后,在生成的join顺序基础上构建执行计划,执行后返回最终查询结果.大量实验结果表明,改进的DPhyp算法与DPhyp生成的join顺序一致,且前者算法运行效率比后者要快近一倍.另外,改进的DPhyp算法结合提出的代价模型,比原始的Impala查询响应时间平均减少67%~80%.
- 周强陈岭马骄阳赵宇亮吴勇王敬昌
- 基于副本选择的Impala并行查询执行调度
- 目前并行查询执行调度方法不适用于Impala大数据实时查询系统的问题,提出基于副本选择的Impala并行查询执行调度方法.该方法将所有查询分为单表查询和多表查询两类:若是单表查询,则转化为多副本检索优化问题,应用最大流方...
- 赵宇亮陈岭杨谊马骄阳吴勇王敬昌
- 关键词:数据查询并行处理副本选择
- 基于浓密树和改进McCHyp算法的Impala查询优化被引量:1
- 2014年
- 针对Impala大数据实时查询系统在查询优化上存在的问题,提出基于浓密树和改进的MinCutConservative Hypergraph(McCHyp)算法的Impala查询优化方法.首先,修改Impala使其支持浓密树的查询计划;接着,使用剪枝策略对McCHyp算法进行改进,减少查询优化的时间;最后,提出一种适用于Impala的代价模型,并将改进的McCHyp算法集成到Impala中,根据用户的SQL语句生成较优的查询计划.在Impala系统上实现了本文提出的查询优化方法并在TPC-H数据集上进行了实验,结果表明改进的McCHyp算法与McCHyp算法对连接超图的优化结果一致,且前者的运行时间减少了43.82%~62.55%.同时,使用改进的McCHyp算法及新的代价模型对查询语句优化后,查询响应时间较原始的Impala系统减少了79.60%.
- 马骄阳陈岭赵宇亮杨谊吴勇王敬昌
- 关键词:查询优化IMPALA查询计划
- 基于副本选择的大数据实时查询处理并行调度
- Cloudera Impala是一个开源的大数据实时查询系统。Impala使用HDFS作为底层存储管理器。HDFS会对文件进行分块,并为每个块创建多个副本。数据多副本可提高系统的容错性能,并能提供负载均衡。然而,数据多副...
- 赵宇亮
- 关键词:并行调度副本选择
- 文献传递
- 一种用于分布式文件系统中大数据查询的调度方法
- 本发明公开了一种用于分布式文件系统中大数据查询的调度方法,包括如下步骤:(1)按照预设的时间周期定期获取所述分布式文件系统的集群负载信息;(2)根据查询语句构建查询计划树、确定查询种类和需要查询的数据表,并根据查询种类确...
- 陈岭赵宇亮
- 一种用于分布式文件系统中大数据查询的调度方法
- 本发明公开了一种用于分布式文件系统中大数据查询的调度方法,包括如下步骤:(1)按照预设的时间周期定期获取所述分布式文件系统的集群负载信息;(2)根据查询语句构建查询计划树、确定查询种类和需要查询的数据表,并根据查询种类确...
- 陈岭赵宇亮
- 文献传递