公共文化服务平台

刘炎: 作品数：10 被引量：78H指数：6; 供职机构：清华大学软件学院更多>>; 发文基金：国家自然科学基金新疆维吾尔自治区自然科学基金博士科研启动基金更多>>; 相关领域：自动化与计算机技术交通运输工程更多>>

合作作者

适应节能与异构环境的MapReduce数据布局策略被引量：2: 2015年; 大数据处理过程中产生的高能耗问题亟待解决,尤其是在数据量规模剧增的背景下。在对已有数据布局策略存在问题分析的基础上,分析了与基于存储区域划分的节能模式及与异构HDFS集群的不适应、数据块切分算法不灵活、存储节点选择的随机性等几个方面的问题,继而提出面向节能的MapReduce数据布局策略。首先,新策略适应将集群划分为不同存储区域(Active-Zone与Sleep-Zone)的节能模式;其次,新策略对传统的数据块数计算方法进行了改进,提出作业截止时间约束下的最小任务数计算方法确定数据块数量;最后,新的存储策略增加了对异构集群环境的适应能力,并能根据不同的作业类型进行存储节点的选择。实验结果表明:新的数据布局策略能够适应异构集群环境,达到减小MapReduce作业能耗的目的。; 廖彬张陶于炯刘继钟磊刘炎; 关键词：MAPREDUCE 异构环境

基于GraphX传球网络的传球质量量化研究被引量：2: 2017年; 虽然大数据技术在不断成熟,但它在竞技体育领域的相关应用研究还处于探索阶段。常规篮球统计缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究。首先,在GraphX基础上将传球数据构建成图,为传球质量的研究奠定基础;其次,提出传球质量评估方法PESV(Pass Expectation Score Value),相比于传统的助攻数与失误数的比值ATR(Assist Turnover Ratio),PESV能更全面地评价球员传球的质量;最后,介绍基于传球网络及传球质量评估方法 PESV的几种应用场景,包括传球质量对比赛结果的影响分析、基于PESV值的传球路线选择,并以华人球员林书豪为例,计算其2015-2016赛季的传球得分期望值。; 廖彬张陶国冰磊于炯牛亚锋张旭光刘炎

基于GraphX的传球网络构建及分析研究被引量：8: 2016年; 虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚形态为图,在传球数据获取、数据清洗及格式转化、Vertex与Edge表构建的基础上,通过GraphX构建传球网络图为其应用打下基础;2)提出PlayerRank值区分球员重要度、球员位置个性化图顶点等方法提高传球网络可视化质量;3)通过GraphX构建的传球网络分析传球数量与质量对比赛结果的影响,并例举了传球网络在球队传球数据分析、战术人员选择、临场战术制定、网络子图及游戏体验改进等方面的应用.; 张陶于炯廖彬国冰磊卞琛王跃飞刘炎

基于Spark的MapReduce相似度计算效率优化被引量：3: 2017年; 随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。; 廖彬张陶于炯国冰磊刘炎; 关键词：相似度计算 MAPREDUCE 能耗优化

基于操作历史图的分布式Key-Value数据库一致性检测算法被引量：9: 2019年; 分布式数据库系统的副本机制在提高系统可靠性及性能的同时,导致了多副本数据管理的一致性问题;数据一致性的实现需要一致性协议模型来进行预防,也需要一致性检测算法对非一致数据进行检测。首先,对读写操作记录之间的时序关系、安全一致性及并行一致性原则等概念进行定义;其次,根据操作记录集合中读写操作之间的并行与时序关系,提取出操作记录集合向操作记录图转化的规则,并在此基础上设计了操作记录向历史记录图的转化算法;然后,以历史记录图为输入,设计了违反一致性查找算法,查找并返回图中所有违反安全与并行一致性读操作的集合;最后,基于Cassandra进行实验并将读写一致性设置为ONE,通过YCSB产生并行读写压力测试,与同类算法的对比实验验证了所提算法在功能与效率两方面的优越性。; 廖彬张陶李敏于炯国冰磊刘炎; 关键词：分布式数据库 DAG图

基于Spark的ItemBased推荐算法性能优化被引量：8: 2017年; MapReduce计算场景下,复杂的大数据挖掘类算法通常需要多个MapReduce作业协作完成,但多个作业之间严重的冗余磁盘读写及重复的资源申请操作,使得算法的性能严重降低。为提高Item Based推荐算法的计算效率,首先对MapReduce平台下Item Based协同过滤算法存在的性能问题进行了分析;在此基础上利用Spark迭代计算及内存计算上的优势提高算法的执行效率,并实现了基于Spark平台的Item Based推荐算法。实验结果表明:当集群节点规模分别为10与20时,算法在Spark中的运行时间分别只有MapReduce中的25.6%及30.8%,Spark平台下的算法相比MapReduce平台,执行效率整体提高3倍以上。; 廖彬张陶国冰磊于炯张旭光刘炎; 关键词：协同过滤 MAPREDUCE

Spark DAG优化MapReduce协同过滤算法被引量：3: 2017年; 大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,高效率低成本的大数据处理技术成为学术界及工业界的研究热点。为提高协同过滤算法的执行效率,对MapReduce架构下的算法执行步骤进行了分解,并对算法执行缺陷进行了分析。结合Spark适于迭代型及交互型任务的特点,提出将算法从MapReduce平台移植Spark平台的改进思路。设计了算法在Spark中的实现流程,并通过参数调整、内存优化等方法进一步提高算法效率。实验结果表明:与MapReduce平台中的算法相比,基于Spark DAG调度的算法能够减少65%以上的HDFS重复I/O操作,执行效率与能耗效率分别提升近200%及50%。; 廖彬张陶于炯国冰磊张旭光刘炎; 关键词：协同过滤 MAPREDUCE SPARK 能耗优化

QPR-NN:一种结合二次多项式回归与神经网络的推荐算法被引量：8: 2019年; 针对传统推荐算法不能很好地适应数据高规模及高稀疏性的问题,结合深度学习数据建模的方法,提出了一种结合二次多项式回归与神经网络(QPR-NN)的推荐算法。在对已有特征提取方法缺陷分析的基础上,利用二次多项式回归模型将用户对物品的评分数据进行特征提取及降维,充分挖掘了用户与物品之间的相关性。将特征提取后的数据作为深度学习训练模型的输入,增加输入数据与训练模型之间的匹配度,并将训练得到的模型用于推荐评分预测。在MovieLens与Epinions两组数据集上的实验结果表明:QPR特征提取方法与QPR-NN推荐算法在平分绝对误差与均方根误差评价指标上均优于现有的主流算法,QPR-NN推荐算法可以有效提升推荐准确率。; 廖彬张陶于炯国冰磊李敏刘炎; 关键词：特征提取

基于司机操纵模式学习的列车节能自动驾驶研究被引量：6: 2019年; 基于优秀司机运行记录数据,提出一种基于机器学习技术的列车节能优化驾驶方法架构,利用层次分解的思想结合集成机器学习方法从优秀司机的驾驶日志数据中挖掘出隐藏的优秀司机驾驶模式,分别对速度信息和档位信息进行学习预测,以实现列车节能优化自动驾驶决策,并选用实际铁路线路和机车数据进行了试验验证.试验结果表明,在保证列车安全、准点、平稳等约束条件下,本文列车节能优化驾驶方案相比司机平均水平可节能约7%.; 李国华刘尧黄晋黄晋; 关键词：列车操纵节能优化

多MapReduce作业协同下的大数据挖掘类算法资源效率优化被引量：32: 2020年; 由于任意的MapReduce作业都需要独立地进行任务调度、资源分配等一系列复杂的操作,这使得同一算法协同的多个MapReduce作业之间,存在着大量的冗余磁盘I/O及资源重复申请操作,导致计算过程中资源利用效率低下。大数据挖掘类算法通常被切分成多个MapReduce job协作完成。以Item Based算法为例,对多MapReduce作业协同下的大数据挖掘算法存在的资源效率问题进行了分析,提出基于Distributed Cache的ItemBased算法,利用Distributed Cache将多个MapReduce job之间的I/O数据进行缓存处理,打破作业之间独立性的缺陷,减少map与reduce任务之间的等待时延。实验结果表明,Distributed Cache能够提高MapReduce作业的数据读取速度,利用Distributed Cache重构后的算法极大地减少了map与reduce任务之间的等待时延,资源效率提高3倍以上。; 廖彬张陶于炯黄静莱国冰磊刘炎; 关键词：内存文件系统资源优化

刘炎

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

刘炎

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈