兰超
- 作品数:5 被引量:1H指数:1
- 供职机构:清华大学更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 分布式Top-k子图匹配技术
- 2016年
- Top-k子图匹配是一种应用广泛的图搜索技术。相比于单机环境,分布式环境下的Top-k子图匹配问题具有更大的挑战性。该文分析了已有方法在分布式环境下存在的问题,提出了包括查询拆分、查询执行、结果连接3个步骤的算法。算法通过查询拆分,彻底避免了生成中间结果过程中的数据传输,同时通过优化查询执行和结果连接步骤,避免不必要的中间结果生成,降低单个节点的计算量,提升整体效率。在此基础上,该文对分布式环境下Top-k连接策略进行了进一步优化。在真实图数据上进行的实验测试表明:该文提出的算法能够有效解决分布式环境下Top-k子图匹配问题,具有很好的扩展性,而且使用优化连接策略的算法性能较基础算法的效率有明显的提升。
- 兰超张勇邢春晓
- 关键词:图搜索分布式
- 面向复杂数据的对象存储系统被引量:1
- 2014年
- 主要研究了数字图书馆应用中数字对象的有效存储和索引机制,提出并设计了针对数字图书馆的数据仓储系统PuntTable。PuntTable使用非关系模式存储和管理对象,并且通过在数据对象内部建立索引来支持查询。PuntTable包括两个主要模块:一个是PuntStore,一种有多存储引擎的数据存储系统;另一个是PuntIndex,一种支持多种索引方式的索引系统。PuntTable实现了高吞吐量和低延迟对象存储,数据对象的索引和内容都可以选择最为合适的存储层来进行存储。使用实际数字图书馆中的数据对PuntTable进行了测试和评估。在测试所用的数据集中,每个数据都采用不同长度,使测试更加接近实际应用。实验结果显示,对于不同的数据集使用不同的存储模型可以显著增大数据库系统的吞吐量,并且有效减少延迟。
- 兰超张勇张勇
- 关键词:数字图书馆大数据
- 海量多版本文档的加权持久性top-k检索
- 2013年
- 提出并研究了针对海量多版本文档的加权持久性top-k检索问题.加权持久性top-k检索能够返回在一个限定时间区间内与查询关键词组持续相关的k个结果,并且考虑不同时间区间有不同的权重.针对这一问题,把现有时空查询和针对多版本文档查询的方法进行扩展,使其支持加权持久性top-k检索问题,并分析总结了该方法的缺点,进而又提出了一种新的基于时间区间窗口的算法.基于时间区间窗口的算法能够支持多种经典top-k算法并有效地解决加权持久性top-k检索问题.最后使用Wikipedia多版本数据进行了一系列性能试验,对比测试了基于区间窗口的算法和扩展算法.结果表明区间窗口算法在各个测试下的效率和可扩展性明显优于扩展算法.
- 兰超张勇邢春晓
- 关键词:TOP-K查询时态查询
- 海量多版本文档的加权持久性top-k检索
- 提出并研究了针对海量多版本文档的加权持久性top-k检索问题.加权持久性top-k检索能够返回在一个限定时间区间内与查询关键词组持续相关的k个结果,并且考虑不同时间区间有不同的权重,针对这一问题,把现有时空查询和针对多版...
- 兰超张勇邢春晓
- 关键词:性能评价
- 文献传递
- 面向图数据的Top-k检索算法研究
- 近年来随着社交网络、知识图谱等应用的飞速发展,图数据大量出现在学术界和工业界,如何有效管理图数据并从中挖掘有价值的信息已经成为当前数据管理领域的研究热点。其中面向图数据的Top-k检索问题广泛存在于在各类应用中,旨在从图...
- 兰超
- 关键词:分布式检索
- 文献传递