骆歆远
- 作品数:4 被引量:12H指数:2
- 供职机构:浙江大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金浙江省自然科学基金国家科技支撑计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于属性谓词锁的数据库并发控制方法被引量:1
- 2012年
- 当前,在OLTP数据库的应用场景中,事务通常由一些简单的查询构成,尤其是大量存在的基于主键的读写事务.在这种应用场景下,逻辑锁能够避免复杂的逻辑判定,通过基于简单比较的语义封锁来防止不可重复读、幻象读等问题,从而实现事务的串行化调度.为了提高事务读写的并发能力,针对当前OLTP应用的特点,在谓词锁的基础上进一步细分锁粒度,提出属性谓词锁的理论,并在给定的复杂度内讨论了该理论在上述应用场景下的可行性.此外,通过在国产神通数据库的事务线程框架下模拟TPC-C的事务并发,一个测试属性谓词锁与物理行锁性能差异的实验得以顺利进行.对比实验结果表明,属性谓词锁在相对固定的属性列上进行简单查询和更新的应用中,可以大幅度地减少加锁的数目,从而在CPU和内存开销等性能指标上占据优势.
- 寿黎但胡炜骆歆远陈珂陈刚
- 关键词:并发控制数据库
- 面向室内空间的语义轨迹提取框架被引量:1
- 2019年
- 利用海量位置数据分析用户行为,挖掘用户的潜在价值越来越受到人们的关注。室外环境中已有较成熟的解决方案。针对室内空间中WiFi定位数据的精确度、鲁棒性不足等问题,对面向室内空间的语义轨迹提取方法进行了研究,能在减少错误、压缩原始位置数据的同时,增强轨迹的表达能力,使得更深入的室内时空数据挖掘成为可能。该文基于室内空间建模、数据清洗、事件提取和语义增强4个模块的框架提出了室内语义轨迹计算的方法,在真实数据集和模拟数据集上进行实验,结果表明:该方法能从存在误差和缺失的室内定位数据中,准确有效地挖掘和提取出含有语义信息的轨迹数据,为上层的应用分析所用。
- 骆歆远陈欣寿黎但陈珂吴妍静
- 关键词:密度聚类
- 基于GPU加速的超精简型编码数据库系统被引量:7
- 2015年
- 在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值.
- 骆歆远陈刚伍赛
- 关键词:数据库系统GPUCUDA
- 基于字段嵌入的数据库自然语言查询接口被引量:3
- 2020年
- 将自然语言转化成数据库可以执行的查询语句,是目前智能交互和人机对话系统的核心难题,也是新型供电列车大数据运用支撑平台对接应用平台及建立城轨列车个性化运维系统的难点。现有的基于神经网络的方法没有充分利用数据表的丰富信息,影响了查询的准确率。针对数据表内容作为输入的情况下,如何提升自然语言查询接口的查询准确率的问题,文中创新地提出了基于数据表内容的字段嵌入方法,利用数据表中每个字段存储的内容对字段进行嵌入表示,并据此提出了新的模型嵌入层结构;此外,提出了一种基于数据表内容的数据增强方法,通过用数据表相同字段中的其他记录去代替查询语句中的属性值,来产生新的训练样本。最后,针对提出的字段嵌入表示和数据增强方法,在WikiSQL数据集上进行了对比实验。实验结果显示,相比当前效果最好的模型,单独使用这两种方法时能够提升0.6%~0.8%的查询准确率,共同使用时则能够提升接近1%的查询准确率,证明所提字段嵌入和数据增强方法对查询准确率有一定的提升作用。
- 田野寿黎但陈珂陈珂陈刚
- 关键词:数据库查询自然语言处理SQL