国家重点基础研究发展计划(G1999032705)
- 作品数:48 被引量:862H指数:17
- 相关作者:唐世渭杨冬青王腾蛟张铭高军更多>>
- 相关机构:北京大学西北工业大学天津师范大学更多>>
- 发文基金:国家重点基础研究发展计划国家高技术研究发展计划教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术文化科学经济管理电子电信更多>>
- 一种统一的可扩展语言UXL及其应用
- 2003年
- 本文提出一种统一的可扩展语言UXL,它可用于描述Web上数据源、用户查询需求、各种服务、控制流以及事件等。利用UXL可实现对网上数据源和服务的统一描述,从而为各种服务器做一件外观统一的“主动服务外套”,构成所谓的“主动虚拟服务器。此外,还可利用UXL来描述查询计划,实现分布式协同工作和计算,构造可供网上使用的、动态的、可伸缩的分布式协同环境等。
- 杨良怀何新贵
- 关键词:INTERNET数据源信息服务数据集成数据表示
- 主动虚拟服务器和网上数据集成的新模式被引量:17
- 2001年
- 针对Internet上信息搜索和数据集成存在的问题 ,提出了“主动虚拟服务器”的概念 ,并给出了基于这种虚拟服务器的数据集成模式。主动虚拟服务器可认为是网上海量数据统一的存储和处理器 ,而且具有主动服务的功能。在不改变服务器中原DBMS的前提下 ,只需用一种统一的可扩展语言UXL为各种服务器做一件外观统一的“主动服务外套” ,就可构成所需的“主动虚拟服务器”。上述“外套”对每种服务器只需实现一次 ,就能在整个网上统一使用 ,因此 。
- 何新贵杨良怀唐世渭杨冬青陈立军张震林斌
- 关键词:数据集成UXLINTERNET信息搜集XML
- 基于单元划分的DBSCAN聚类算法
- 1引言聚类分析是数据挖掘领域中极富挑战性的一个领域,它的一些潜在的应用对分析算法提出了特别的要求,下面是关于聚类的一些典型的要求:可扩
- 马帅宋国杰唐世渭杨冬青王腾蛟
- 关键词:CLUSTERINGCELL
- 文献传递
- 数据流中频繁模式的评估与维护
- 1引言模式挖掘是数据挖掘的一个重要研究分支,在冰川查询、关联规则、冰川数据方和路由管理和IP包计数等领域都有着十分广泛的应用。结合数据流的特性,文[1,2]给出了对数据流中频繁项进行计数的算法。文[1]引入新的Count...
- 宋国杰王腾蛟唐世渭杨冬青
- 关键词:SAMPLE
- 文献传递
- Web数据集成系统基于QC模型的物化视图选择被引量:3
- 2005年
- 在Web数据集成系统中 ,物化视图能够有效地减少网络传输代价 ,提高系统的查询效率 如何选择查询进行物化 ,使得选中的查询满足集成层的空间限制 ,同时获取最大物化收益 ,成为集成系统中一个迫切需要解决的问题 传统方法没有考虑到海量XML查询之间的包含关系 ,其选择的物化视图中可能包含冗余的信息 针对上述问题 ,提出了①Web数据集成系统中海量查询集合的QC(querycon tainment)模型 ,该模型能够捕捉查询之间最常见的包含关系 ;②基于QC模型的物化视图选择算法 ,算法考虑了物化视图选择相关的主要因素 ,包括查询提交的频率、空间代价、查询重写能力和查询结果的完备性 ,提出了查询位图的物化视图组织方式 ,从而获取更加合理的物化视图选择方案
- 高军唐世渭杨冬青王腾蛟
- 关键词:物化视图数据集成查询重写
- 论文元数据信息的自动抽取被引量:45
- 2002年
- 为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。
- 李朝光张铭邓志鸿杨冬青唐世渭
- 关键词:元数据信息信息抽取WEB
- 基于OAI的数字图书馆中元数据互操作框架被引量:54
- 2002年
- 提出一种基于最新的元数据互操作协议———OAI的元数据互操作框架。文章给出了框架中各个组件的模块及功能说明,并说明各模块之间的交互。这种框架克服了以前人们所提出的其他集成方法过于复杂、难于实施的缺点。
- 王爱华张铭杨冬青唐世渭
- 关键词:元数据OAI互操作
- 基于隐含QoS-簇映射的分布式自适应副本分布算法
- 2005年
- 研究了数据网格中数据副本分布与存取的关键问题.基于对动态副本访问模式预测机制的分析,同时考虑QoS,提出“读-复制”和“测试-删除”机制,实现了一种基于隐含QoS-簇映射的分布式自适应副本分布算法(QCMR-DG).模拟试验表明,QCMR-DG算法能够以相当低的代价为数据网格应用提供至少满足各自QoS要求的较高数据存取速率.
- 张俊虎杨冬青唐世渭
- 关键词:分布式系统数据副本
- 基于结构分析和实体识别的信息集成
- 针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使...
- 苏志华杨冬青唐世渭王腾蛟
- 关键词:信息提取信息集成XMLWRAPPER
- 文献传递
- 基于Web挖掘的语义Web构造方法
- 1引言目前WWW信息组织方式存在的主要问题是以人类可理解的方式提供信息,没有考虑使机器"理解"Web信息内容。让机器"理解"Web信息的优点可概括为:智能软件代理可代替人类进行一些比较
- 包小源王腾蛟唐世渭杨冬青宋再生
- 关键词:ONTOLOGY
- 文献传递