江苏省高技术研究计划项目(BG2004034) 作品数:16 被引量:153 H指数:7 相关作者: 董逸生 钱江波 王永利 刘学军 徐宏炳 更多>> 相关机构: 东南大学 南京工业大学 甘肃政法学院 更多>> 发文基金: 江苏省高技术研究计划项目 江苏省普通高校研究生科研创新计划项目 更多>> 相关领域: 自动化与计算机技术 自然科学总论 电子电信 更多>>
基于最小生成树的数据流窗口连接优化算法 被引量:4 2007年 与传统关系数据库不同,数据流管理系统主要处理并发的连续查询.由于查询可能随时增删,所以其主要关注适合查询增删的并发连续查询优化,而不是单条查询优化.提出适合频繁增删查询环境下的数据流窗口连接优化算法.对于新注册的查询以类似最小生成树算法写出数据流的探测序列,然后在不更改其他查询探测序列顺序的情况下尽量合并,减少重复计算.注册或删除查询并不影响其他的查询计划,不需要执行繁琐的查询计划迁移.理论分析和实验证明,该算法简单,优化性能在可接受的范围内,尤其适合查询更新频率较高的系统. 钱江波 徐宏炳 董逸生 王永利 刘学军 杨雪梅关键词:最小生成树 连续查询 基于硬件加速的高速数据流连续实时聚集查询 被引量:3 2007年 近年来,动态数据流环境下的聚集查询正成为一个热点研究问题.目前的相关算法主要是采用近似技术,以牺牲精度来换取处理速度的提高.然而,在高速数据流环境下,处理速度仍然难以满足需求.软硬件协同的高速数据流处理技术逐渐引起人们的关注.提出了一种基于硬件加速的高速数据流聚集查询方法,充分发挥硬件在处理速度上的优势和软件在灵活性方面的长处.算法是增量的,也实现了多窗口资源共享.最后,给出了算法的复杂度分析并实验验证了方法的有效性. 刘学军 胡平 徐宏炳 董逸生 钱江波 王永利关键词:数据流 聚集查询 软硬件协同 共享连接结果的连续查询处理 被引量:1 2007年 深入研究了适合数据流连续查询处理的Shared PushDown,PullUp和Filtered PullUp三种可共享连接结果的策略.通过理论分析和实验证明,在数据流的连续查询处理中,PullUp策略性能较低,而Filtered PullUp和Shared PushDown策略各占优势.Filtered PullUp处理简单,消耗内存相对较少.而Shared PushDown增加内存使用,但在注册查询的选择因子覆盖较少时有一定优势.考虑到处理的方便,一般情况下Filtered PullUp是适合数据流连续查询处理的最佳方案. 钱江波 徐宏炳 董逸生 刘学军 王永利 杨雪梅关键词:数据流 连续查询 挖掘数据流中的频繁模式 被引量:47 2005年 发现数据流中的频繁项是数据流挖掘中最基本的问题之一·数据流的无限性和流动性使得传统的频繁模式挖掘算法难以适用·针对数据流的特点,在借鉴FP-growth算法的基础上,提出了一种数据流频繁模式挖掘的新方法:FP-DS算法·算法采用数据分段的思想,逐段挖掘频繁项集,用户可以连续在线获得当前的频繁项集,可以有效地挖掘所有的频繁项集,算法尤其适合长频繁项集的挖掘·通过引入误差ε,裁减了大量的非频繁项集,减少了数据的存储量,也能保证整个数据集中项目集支持度误差不超过ε·分析和实验表明算法有较好的性能· 刘学军 徐宏炳 董逸生 王永利 钱江波关键词:数据流 流数据挖掘 分布式数据流增量聚集 被引量:9 2006年 分布式处理是数据流管理中的主流技术,聚集是分布式数据流系统中一种重要的连续查询类型.在分布式数据流环境中,由于需要连续计算聚集值,并且在分布式网络中连续传送聚集值,导致系统的通信开销非常大.为了有效地减少网络中数据流的传输量,提出了一种近似增量聚集算法(approxi-matelyincremental aggregate over distributed data stream,AIADDS).算法增量地计算网络中各个站点的聚集值,只有当聚集值的改变超出给定的阈值才向其他站点传送聚集改变量,这样,可以显著地降低网络的数据传输量.作为算法核心的VSB-Tree能够有效地合并、存储来自孩子站点的聚集值,同时增量地向它的父站点传送聚集改变量.理论分析和实验结果表明,算法是行之有效的. 王永利 徐宏炳 董逸生 钱江波 刘学军关键词:数据流 分布式系统 基于本体的生物信息集成技术发展现状 被引量:1 2006年 本文分析了传统的生物信息集成在语义处理中的困难以及本体在生物信息集成中的作用,从本体的表示、特征、在系统中所起的作用、存储等若干角度调查几个主要的本体,比较并讨论了已有的基于本体的生物信息集成的优势和不足,并对未来的发展方向进行了展望。 陈坚 何洁月关键词:信息集成 生物信息 基于最大频繁项集信息熵的数据流变化检测 被引量:1 2006年 应用最大频繁项集信息熵来进行数据流变化检测.采用了一种新的数据流差异度度量方法;提出了一种新的有效挖掘最大频繁项集的算法;给出了应用最大频繁项集信息熵进行数据流变化检测的算法.最后,对算法的时间效率和空间效率进行了分析. 刘学军 徐宏炳 董逸生 钱江波 王永利关键词:数据流 最大频繁项集 变化检测 数据流分析 面向服务架构(SOA)的由来与发展 被引量:2 2008年 本文通过对SOA产生的社会原因、发展过程的分析指出了其出现的必然性;从SOA的概念内函、标准、实现技术说明了SOA的基本组成;从SOA的设计模式、Web服务平台、服务的实现过程介绍了SOA的实现过程。同时分析了SOA的发展趋势、目前存在的问题以及应对办法。 何珍祥 董逸生关键词:SOA WEB服务 系统集成 中间件 异构数据源集成中的模式映射技术 被引量:31 2006年 模式映射是异构数据源集成中实现查询重形成(Reformulation)的关键技术,本文首先介绍了模式映射的集中式和非集中式集成体系,总结了定义模式映射的3种基本形式:GAV、LAV和GLAV,重点探讨了模式映射中的核心技术:模式匹配和映射生成,最后讨论了模式映射技术新的研究议题。 杨雪梅 董逸生 王永利 钱江波 钱刚关键词:异构数据源集成 模式映射 多数据流滑动窗口并发连接方法 被引量:16 2005年 提出一种多数据流滑动窗口连接方法M3Join及其实现架构Roujoin·Roujoin由一个连接路由表和多个连接区组成,其内容根据并发连接请求设置,先将新元组插入缓冲区,然后根据其路由标记查找连接路由表进入合适的连接区执行连接或输出给用户·如果产生连接元组,则更改其路由标记后送回连接路由表,并反复迭代直到没有连接元组·由于共享中间结果,在处理多个并发查询时只需扫描流元组一遍·实验结果表明M3Join具有良好的性能,能够满足并发连接查询处理的需求· 钱江波 徐宏炳 王永利 刘学军 董逸生关键词:数据流 连续查询 路由表