冷芳玲
- 作品数:23 被引量:67H指数:5
- 供职机构:东北大学计算机科学与工程学院更多>>
- 发文基金:国家自然科学基金中央高校基本科研业务费专项资金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学理学更多>>
- 数据仓库环境下以用户为中心的数据清洗过程模型被引量:23
- 2004年
- 数据清洗是数据仓库和数据挖掘中非常重要的一个环节。本文首先分析总结了数据清洗的有关概念,给出了数据清洗中需要解决的质量问题,并总结了解决这些问题的技术和方法。在此基础上提出了以人为中心的数据清洗过程模型。该模型集成了工作流技术、数据集成、数据转换和数据挖掘技术。给出了每个工具箱应该提供的基本功能。
- 鲍玉斌孙焕良冷芳玲王大玲于戈
- 关键词:数据仓库用户数据清洗工作流技术数据集成
- CBFrag-Cubing:一种基于压缩位图的高维数据立方创建算法被引量:3
- 2005年
- 数据立方的计算是数据仓库和0LAP研究的一个重要方向,同时又是数据仓库中代价很大的操作。针对在生物信息、统计分析、文本处理等领域中存在的基数较小的高维数据集,X.L.Li等人提出了 Frag-Cubing算法。为了提高Frag-Cubig算法的效率,本文提出了基于分片思想的算法CBFrag-Cubing。该算法使用了位图索引结构,优化了数据立方的存储,减少了数据立方的计算时间。实验表明,与Frag-Cubing算法相比,该算法在存储空间上至少节省25%,在计算时间上节省30%。
- 刘运涛鲍玉斌吴丹冷芳玲孙焕良于戈
- 关键词:OLAP数据立方高维位图
- 基于Hadoop的封闭直方图立方
- 2012年
- 封闭数据立方是一种有效的无损压缩技术,它去掉了数据立方中的冗余信息,从而有效降低了数据立方的存储空间、加快了计算速度,而且几乎不影响查询性能.Hadoop的MapReduce并行计算模型为数据立方的计算提供了技术支持,Hadoop的分布式文件系统HDFS为数据立方的存储提供了保障.为了节省存储空间、加快查询速度,在传统数据立方的基础上提出封闭直方图立方,它在封闭数据立方的基础上通过编码技术进一步节省了存储空间,通过建立索引加快了查询速度.Hadoop并行计算平台不论从扩展性还是均衡性都为封闭直方图立方提供了保证.实验证明:封闭直方图立方对数据立方进行了有效压缩,具有较高的查询性能,根据Hadoop的特点通过增加节点个数明显加快了计算速度.
- 冷芳玲鲍玉斌于戈李炳梁
- 关键词:HADOOPMAPREDUCE
- MapReduce环境下的并行Dwarf立方构建被引量:3
- 2011年
- 针对数据密集型应用,提出了一种基于MapReduce框架的并行Dwarf数据立方构建算法。算法将传统Dwarf立方等价分割为多个独立的子Dwarf立方,采用MapReduce架构,实现了Dwarf立方的并行构建、查询和更新。实验证明,并行Dwarf算法一方面结合了MapReduce框架的并行性和高可扩展性,另一方面结合了Dwarf立方结构的数据高压缩性及数据自索引性。并行Dwarf立方既实现了数据立方的高压缩存储,提供了快速的构造和增量更新操作,又克服了MapReduce机制没有索引的劣势,实现了数据立方上的快速查询操作。
- 师金钢鲍玉斌冷芳玲于戈
- 关键词:MAPREDUCEDWARF数据立方
- 面向大规模图数据的并行图布局算法被引量:1
- 2016年
- 图模型是一种广泛使用的建模工具。图的可视化作为一种直观的图数据分析工具被广泛使用。图数据可视化中最关键的技术是图布局算法,但是目前并没有高效的并行图布局算法,因此目前对于海量图数据的可视化是一个挑战性问题。针对这一问题,在力导向布局算法基础上,忽略弱关联顶点间的斥力计算,提出了k-friend布局算法;并针对海量图数据设计了高效的并行图布局算法。在人工和实际数据集上的测试结果表明,在布局质量降低可容忍的情况下,该算法大幅度提升了布局的速度。
- 程致远鲍玉斌冷芳玲
- 关键词:可视化分析社交网络
- BHP:面向BSP模型的负载均衡Hash图数据划分被引量:5
- 2014年
- 图数据划分是基于BSP(bulk synchronous parallel)编程模型的大规模图处理系统中一个关键技术问题。传统的图划分技术需要多次迭代,时间复杂度过高,且划分结果不具有图顶点到分区的映射信息,因此这些算法并不适用于BSP模型下的数据划分。提出了一种新的面向BSP模型的负载均衡Hash数据划分算法(balanced Hash partition,BHP)。为了实现各个分区的出边数尽可能均衡,该算法引入了虚拟桶的概念,通过贪婪算法将虚拟桶重组为实际分区,保证了每个实际分区负载均衡,同时数据本地化策略使本分片上的数据尽可能地保留在本节点上,从而减小在数据加载时的数据迁移开销。从三个方面对比了BHP算法和经典Hash算法的性能,结果表明BHP算法能够提高作业的执行效率,减少消息发送的数量,有效解决了经典Hash算法的负载不均衡和分区间交互边过多的问题,当数据量变大时,效果尤为明显。
- 周爽鲍玉斌王志刚冷芳玲于戈邓超郭磊涛
- 关键词:BSP模型图划分负载均衡
- 一种分级统计OLAP模型的研究与应用
- 联机分析处理(OLAP)系统是数据仓库主要的前端支持工具,它给用户提供了交互的、多维的、多角度的数据结果展示方式.数据仓库一般存储了大量历史数据,因此如何通过建立有效的OLAP模型、有效地实例化数据立方体(Cube)来提...
- 师金钢宋杰鲍玉斌于戈冷芳玲
- 关键词:联机分析处理数据仓库
- 文献传递
- 一种分级统计OLAP模型的研究与应用
- 1引言联机分析处理(OLAP)系统是数据仓库主要的前端支持工具,它给用户提供了交互的、多维的、多角度的数据结果展示方式。数据仓库一般存储了
- 师金钢宋杰鲍玉斌于戈冷芳玲
- 关键词:OLAPCUBE
- 文献传递
- 一种基于构件扩展的数据清洗框架
- 基于构件理论,通过扩展构件的定义,把用户提供的服务与软件构件无缝地组合到一起,解决了传统数据清洗软件的用户交互问题;使用工作流的概念规范数据清洗过程,明确数据清洗步骤;提出一个基于构件的数据清洗框架,该框架包含一个用于控...
- 李智宋杰冷芳玲王大玲鲍玉斌于戈
- 关键词:数据清洗
- 文献传递
- 实时数据仓库中支持QoS的更新和查询任务调度被引量:2
- 2011年
- 实时数据仓库中,数据更新不再是定期批量执行,而是持续不间断地进行.因此更新与查询的执行调度成为了重要问题.提出一种支持服务质量(QoS)的更新和查询调度算法,定义了查询相关的QoS参数,包括期望的查询响应时间和可接受的实时数据延迟;根据查询任务的具体QoS要求,进行更新和查询的实时调度.实验证明该算法能够根据查询的具体QoS需求,合理地调整任务的执行顺序,为用户提供更快速的查询响应和更高的数据实时性.
- 师金钢鲍玉斌冷芳玲于戈王大玲
- 关键词:实时数据仓库服务质量实时调度数据新鲜度