上海市自然科学基金(11ZR1401200)
- 作品数:15 被引量:55H指数:4
- 相关作者:王梅丁祥武乐嘉锦刘国华郭涛更多>>
- 相关机构:东华大学南京大学浙江万里学院更多>>
- 发文基金:上海市自然科学基金国家自然科学基金国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- PBPP:列存储系统中基于传递块缓冲区的流水线并行处理
- 2014年
- 片上多核处理器(CMP)凭借其低功耗和低成本等优势迅速成为处理器市场的主角,它为多线程的实现提供了硬件支持。列存储技术在分析型应用中具有显著的优势。在列存储系统中,查询优化依然是最重要的问题之一。在列存储系统中,利用多核资源提高查询处理性能具有较大潜力。文中通过对查询执行器生成的物理查询树进行流水多线程设计,结合列存储的特点,建立传递块缓冲区,使主线程和辅助线程分别对传递块缓冲区读写,以提高查询性能。同时还提出使用操作系统中经典的"生产者和消费者"模式来解决线程之间的同步问题。提出的这些方法应用在实验室研发的列存储系统DWMS中,使用数据仓库基准测试集SSB验证了这些方法的有效性。实验结果表明,传递块缓冲区的设计使SQL的查询效率有了近50%的提升。
- 丁祥武张光辉
- 关键词:多线程多核并行处理
- 列存储数据库中压缩位图索引技术被引量:3
- 2012年
- 为提高压缩码的利用率,提出一种适用于列存储数据库的压缩位图索引技术。定义反转、合并等操作,将所有计算的输入值与输出值格式化为位向量形式。通过活跃度衡量索引中位向量的复杂度,并对压缩位向量进行直接计算,优化where子句和group by子句在查询执行过程中的数据提取。在SSB数据集上的实验结果证明,该技术能提高29.7%~38.9%的压缩位图索引性能。
- 王梅杨思箫乐嘉锦
- 关键词:位图索引活跃度聚集查询
- 列存储数据仓库中Hash连接改进算法研究
- Hash连接是一种高效的连接算法.然而由于难以提前选择合适的桶数和散列函数,降低了Hash连接效率.该问题在列存储海量数据查询连接中,表现尤为明显.提出了一种基于桶内索引的Hash连接改进算法.该算法当某些桶内出现数据大...
- 孙莉郝大腾王梅
- 关键词:索引数据仓库
- 文献传递
- Conger数据流管理系统:当CQL遇见奥罗拉
- 随着新型网络应用的不断出现,流形态数据已经成为数据管理领域研究的新热点.与传统数据相比,数据流具有时变、高到达速率和大数据量等特点.在CPU和存储资源有限的约束条件下,需要对数据流管理系统的体系结构进行全新的设计和实现....
- 金杰王洪亚曹娇王梅
- 关键词:数据流数据流管理系统
- 文献传递
- 适用于范围查询的列存储数据桶划分算法被引量:3
- 2013年
- 范围查询是数据库中一项重要的操作.列存储数据库中,能否有效查找一个范围内的属性值,获取对应的行号集合,将极大影响元组重构的效率.与树型结构相比,Hash表对数据的精确查找具有更高的效率,但是范围查找的效率比较低.针对这种情况,提出了一种改进的可用于范围查询的数据桶划分算法.为了能够更好地对算法进行描述,首先提出了可用于范围查询的Hash存储模型(rangedHash,RH),并给出了桶的值域和序列化的定义.其次针对列存储等"读优先"特性,在RH模型的基础上,提出一种改进的桶划分算法.该算法生成可序列化的哈希函数把属性值划分到桶中,能够同时提高属性值的范围查询效率和存储效率.最后,通过实验结果验证算法的有效性.
- 李晔锋乐嘉锦王梅
- 关键词:范围查询HASH表
- 列存储数据仓库中基于概率的保序字符串压缩方法
- 2013年
- 数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性.
- 夏小玲李海燕王梅
- 一种列存储数据仓库中的数据复用策略被引量:8
- 2013年
- 数据复用是数据仓库管理中节约存储空间、提高查询效率的重要手段.列存储技术将来自同一属性的数据连续存储,极大地提高了数据仓库等分析型应用软件的性能,同时增加了复用的可行性和灵活性.为此,提出了一种列存储数据仓库中的数据复用策略.首先,利用模式匹配技术发掘候选可复用列,排除大量无法复用的数据列,在此基础上对候选可复用数据进行筛选和过滤,大大降低复用数据检测的复杂度.针对确定的可复用数据,提出了基于列存储的复用实现策略,分别给出了原始数据列、压缩数据列及索引数据列的复用实现方法.最后提出了基于复用数据的查询实现技术.在大规模数据仓库基准数据集上的实验结果验证了数据复用策略在减少存储量、节省数据装载时间及提升查询性能方面的有效性.
- 王梅周娇玲乐嘉锦
- 关键词:数据复用数据仓库
- 列存储数据仓库查询执行中重用缓冲区调度算法被引量:6
- 2011年
- 查询的中间结果重用是提高查询效率的重要手段.现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果.单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象.为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的调度算法.首先,基于操作结点在给定物理执行计划树中的相对位置及其操作所产生的中间结果的大小对操作结点提出重用度估计模型.其次,设计了基于模型估计结果的缓冲区调度算法.在每一个查询计划的执行过程中,根据其模型估计结果执行缓冲区调度算法,使得其产生的中间结果中更重要的部分能够更久地驻留在内存中,以提升查询性能.在数据仓库基准数据集SSB上的实验结果验证了方法的有效性.
- 张琦王梅乐嘉锦刘国华
- 关键词:查询执行数据仓库
- APWAH:一种自适应划分字对齐的混合位向量压缩技术
- 在对海量数据的查询执行中,高效地存储中间结果是提高查询效率的重要手段之一.现有的列存储系统大都主要关注于如何选择合理的物化时机来提高查询效率,而忽略了对中间结果的有效管理.首先,为了减小查询执行过程中中间结果的大小,提出...
- 丁祥武李清炳王梅
- 关键词:位运算
- 文献传递
- 列存储数据查询中的连接策略优化方法被引量:2
- 2013年
- 列存储数据查询优化的重点是列的连接策略.现有的列存储系统通过存储的改变来简化列的连接,致使列的连接缺少查询优化处理,策略单一且无法满足复杂查询.在剖析现有连接选择策略的基础上,提出一种新的连接策略优化方法,即首先利用基于规则的优化方法为列存储数据查询制定优化规则,过滤不可能产生最优计划的候选计划;然后设计了基于代价的优化算法,根据动态Huffman树和左深连接树原理对查询执行顺序进行改进,进一步减少候选计划的规模;根据列存储数据的特点将候选计划中每个连接节点的执行策略归纳为串行连接和并行连接两类,并在此基础上提出代价估计模型,进而可针对这两种连接策略进行代价估计和策略选择.最后在SSB数据集上通过实验证明了方法在列存储数据查询中的有效性.
- 孙莉李静刘国华
- 关键词:查询优化