廖彬 作品数:50 被引量:269 H指数:9 供职机构: 新疆财经大学统计与信息学院 更多>> 发文基金: 国家自然科学基金 新疆维吾尔自治区自然科学基金 博士科研启动基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
SQL能耗建模及优化研究 被引量:7 2015年 IT系统能耗的节节攀升,使得设计新一代DBMS时必须考虑其能耗效率问题。由于SQL语句的执行过程大约消耗70%~90%的数据库资源,因此对SQL进行能耗建模及优化对提高数据库的能源使用效率具有重要的意义。在对SQL查询处理机制进行研究的基础上,构建了SQL能耗模型,并对一系列查询优化原则进行了实验,以表明不同优化原则对性能提升及能耗减少的有效性。实验及能耗数据分析表明:CPU利用率是影响系统功耗的最关键因素,SQL能耗优化方法可忽略内存优化且应该均衡考虑性能优化及功耗优化两方面,提出的SQL能耗模型及节能优化方法具有较强的应用价值。 国冰磊 于炯 廖彬 杨德先关键词:查询处理 基于快速构建模板的购物信息抽取方法 被引量:3 2014年 针对由模板生成的购物信息网页,且根据其网页信息量大,网页结构复杂的特点,提出了一种不使用复杂的学习规则,而将购物信息从模板网页中抽取出来的方法。研究内容包括定义网页模板和网页的信息抽取模板,设计用于快速构建模板的模板语言,并提出一种基于模板语言抽取内容的模型。实验结果表明,在标准的450个网页的测试集下,所提方法的召回率相比抽取问题算法(EXALG)提高了12%;在250个网页的测试集下,召回率相比基于视觉信息和标签结构的包装器生成器(ViNTs)方法和增加自动信息抽取和视觉感知(ViPER)方法分别提升了7.4%,0.2%;准确率相比ViNTs方法和ViPER方法分别提升了5.2%,0.2%。基于快速构建模板的信息抽取方法的召回率和准确率都有很大提升,使得购物信息检索和购物比价系统中的网页分析的准确性和信息召回率得到很大的改进。 李萍 朱建波 周立新 廖彬关键词:电子商务 信息抽取 基于GraphX的传球网络构建及分析研究 被引量:8 2016年 虽然大数据技术在社交网络、金融、公共安全、医疗卫生等领域的应用不断成熟,但在竞技体育方面的应用还处于探索阶段.常规篮球统计中缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究.1)由于传球数据汇聚形态为图,在传球数据获取、数据清洗及格式转化、Vertex与Edge表构建的基础上,通过GraphX构建传球网络图为其应用打下基础;2)提出PlayerRank值区分球员重要度、球员位置个性化图顶点等方法提高传球网络可视化质量;3)通过GraphX构建的传球网络分析传球数量与质量对比赛结果的影响,并例举了传球网络在球队传球数据分析、战术人员选择、临场战术制定、网络子图及游戏体验改进等方面的应用. 张陶 于炯 廖彬 国冰磊 卞琛 王跃飞 刘炎基于Spark的MapReduce相似度计算效率优化 被引量:3 2017年 随着互联网的用户及内容呈指数级增长,大规模数据场景下的相似度计算对算法的效率提出了更高的要求。为提高算法的执行效率,对MapReduce架构下的算法执行缺陷进行了分析,结合Spark适于迭代型及交互型任务的特点,基于二维划分算法将算法从MapReduce平台移植到Spark平台;同时,通过参数调整、内存优化等方法进一步提高算法的执行效率。通过2组数据集分别在3组不同规模的集群上的实验表明,与MapReduce相比,在Spark平台下算法的执行效率平均提高了4.715倍,平均能耗效率只有Hadoop能耗的24.86%,能耗效率提升了4倍左右。 廖彬 张陶 于炯 国冰磊 刘炎关键词:相似度计算 MAPREDUCE 能耗优化 基于GraphX传球网络的传球质量量化研究 被引量:2 2017年 虽然大数据技术在不断成熟,但它在竞技体育领域的相关应用研究还处于探索阶段。常规篮球统计缺乏对传球数据的记录,更缺乏对传球数据的统计分析、价值挖掘及应用等方面的研究。首先,在GraphX基础上将传球数据构建成图,为传球质量的研究奠定基础;其次,提出传球质量评估方法PESV(Pass Expectation Score Value),相比于传统的助攻数与失误数的比值ATR(Assist Turnover Ratio),PESV能更全面地评价球员传球的质量;最后,介绍基于传球网络及传球质量评估方法 PESV的几种应用场景,包括传球质量对比赛结果的影响分析、基于PESV值的传球路线选择,并以华人球员林书豪为例,计算其2015-2016赛季的传球得分期望值。 廖彬 张陶 国冰磊 于炯 牛亚锋 张旭光 刘炎云计算环境下存储与计算层节能方法研究 为保障QoS与系统可靠性,云计算中心超额的资源供给、冗余设计以及负载均衡算法对能耗因素的忽略,使其中的硬、软件系统暴露出高能耗、低效率等问题,并且系统规模的不断扩大使该问题日益严重。打造高效节能的云计算系统是当前信息产业... 廖彬关键词:云计算 能耗模型 文献传递 基于可用性度量的分布式文件系统节点失效恢复算法 被引量:8 2013年 现有分布式文件系统中处理节点失效时采用的恢复策略耗费较多的带宽与磁盘空间资源,且影响系统的稳定性。通过研究分布式文件系统HDFS集群结构、数据块存储机制、节点与数据块状态之间的关系,定义了集群节点矩阵、节点状态矩阵、文件分块矩阵、数据块存储矩阵与数据块状态矩阵为度量数据块可用性建立了基础数据模型。在实现数据块可用性度量基础上,设计了基于可用性度量的节点失效恢复算法并分析了算法的性能。实验结果表明:新算法在保证系统中所有数据块可用性的前提下比原恢复策略减少了恢复所需带宽与磁盘资源,缩短了节点恢复时间,提高了系统稳定性。 廖彬 于炯 钱育蓉 杨兴耀关键词:云计算 分布式文件系统 ODIC-DBSCAN:一种新的簇内孤立点分析算法 被引量:7 2019年 长期以来,孤立点的检测一直聚焦于簇边缘的离散点,当聚类后簇的数目低于实际数目,或孤立点被伪装在簇内的情况下,簇内孤立点的判定则会更加困难.为判定簇内孤立点,提出一种基于密度聚类DBSCAN (Density based spatial clustering of application with noise)的簇内孤立点检测方法 ODIC-DBSCAN (Outlier detection of inner-cluster based on DBSCAN).首先在建立距离矩阵的基础上,通过半径获取策略得到针对该点集的k个有效半径Radius集合,并据此构造密度矩阵;然后建立点集覆盖模型,提出了相邻有效半径构造的覆盖多维体能够覆盖点集的思想,并通过拉格朗日乘子法求取最优的覆盖多维体数目之比,输出点比阈值组;最后重建ODIC-DBSCAN的孤立点检测方法,以簇发生融合现象作为算法终止的判定条件.实验通过模拟数据集,公开benchmark与UCI数据集共同验证了ODIC-DBSCAN算法,展示了聚类过程;分析了算法性能;并通过与其他聚类、孤立点判定方法的对比,验证了算法对簇内孤立点的判定效果. 王跃飞 于炯 苏国平 钱育蓉 廖彬 刘粟关键词:聚类 DBSCAN 孤立点检测 基于分配适应度的Spark渐进填充分区映射算法 被引量:5 2017年 分析Spark的作业执行机制,建立了执行效率模型和Shuffle过程模型,给出了分配适应度(AFD,allocation fitness degree)的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了渐进填充分区映射算法(PFPM,progressive filling partitioning and mapping algorithm),通过扩展式分区和渐进填充映射,建立适应Reducer计算能力的数据分配方案,有效缩减Shuffle过程的同步延时,提高集群计算效率。实验表明该算法提高了Shuffle过程数据分配的合理性,优化了并行计算框架Spark的作业执行效率。 卞琛 于炯 修位蓉 廖彬 英昌甜 钱育蓉关键词:并行计算 SPARK Spark框架并行度推断算法 被引量:5 2019年 分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效。针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标。最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelismdeduction algorithm, PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能。实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性。 卞琛 卞琛 于炯 修位蓉 廖彬 英昌甜关键词:SPARK