国家高技术研究发展计划(2008AA01Z146) 作品数:8 被引量:29 H指数:3 相关作者: 申德荣 于戈 聂铁铮 寇月 李冬 更多>> 相关机构: 东北大学 东软集团 辽宁科技大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 更多>>
一种应用于Deep Web结果页面中分页标签的识别方法 被引量:1 2010年 针对识别分页标签的必要性,提出二种Deep Web结果页面中分页标签识别模型GL(Global Base on Link)和CSL(Commix Baseon Structure and Link).GL是将一个页面的所有超链接Link都抽取出来,然后根据链接探测得到响应页面,分析响应页面的特征来判断是不是分页标签;CSL则是根据分页页面的布局特点,首先缩小分页标签的范围,然后在这个小范围内抽取超链接,最后通过探测方法来确定分页标签的位置,从而抽取出分页标签.通过实验对比,CSL在查全率上略低于GL模型,但是查准率高于GL模型,并且在探测次数上比GL模型降低了一个数量级,所以CSL是一种高效的分页标签抽取模型. 孙高尚 申德荣 于戈 聂铁铮 寇月一种应用于Deep Web环境下的重复记录识别模型 随着Web数据库数量和其蕴含数据量飞速的增长,对Deep Web数据的集成越来越成为研究领域关注的问题.然而由于Web上的信息以半结构化及无结构化的数据信息居多,导致了抽取的结果中包含诸多的不确定性.如有噪音数据、重复字... 朱命冬 申德荣 寇月 聂铁铮 于戈文献传递 数据空间中数据组织模型以及关联关系发现模型的研究 数据资源之间关联关系的发现问题是数据空间的一个重要研究方向,它是解决数据空间中其他问题如构建索引、提供浏览、查询、Lineage等服务的基础.然而目前针对数据空间的研究大都是在假设已经得到数据资源之间关联关系的基础之上进... 董彦磊 申德荣 寇月 聂铁铮关键词:数据空间 领域本体 频繁项集 文献传递 一种应用于Deep Web数据集成系统中的查询松弛策略 被引量:6 2010年 针对Deep Web环境中存在的失败查询,提出了一种有效的查询松弛策略.所有Deep Web资源按查询接口属性分组,组成全局数据源关系图(DRG);针对特定查询将DRG转换为对应该查询请求的数据源关系图;利用该DRG,按照特定的规则进行查询松弛和执行处理.针对查询松弛导致的部分结果可能与用户查询请求的相似度较低的问题,提出先通过Skyline方法对结果进行筛选,然后再根据各个结果实例与用户查询的相似度进行Top-k排序,最后将最接近用户要求的结果集返回给用户.通过实验验证了提出的查询松弛策略的有效性. 申德荣 马也 聂铁铮 寇月 于戈关键词:DEEP WEB TOP-K SKYLINE D-EEM:一种基于DOM树的Deep Web实体抽取机制 被引量:17 2010年 随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势. 寇月 李冬 申德荣 于戈 聂铁铮关键词:DOM树 DEEPWEB 支持Deep Web数据库集成的图书搜索系统 被引量:1 2011年 图书搜索系统以DeepWeb数据库的信息集成为背景,旨在为用户提供一个统一的查询接口,用户通过向统一接口提交查询,可获得各个图书网站集成的查询结果.主要介绍了系统框架、关键技术和主要演示过程. 单菁 王习特 刘桐 李延龙 李英军 聂铁铮 寇月 申德荣 于戈关键词:数据抽取 数据集成 基于语义聚类的P2P网络资源查找策略 被引量:1 2011年 针对无结构peer-to-peer(P2P)网络中查询请求转发具有盲目性、查询效率较低的问题,提出了一种基于语义聚类的资源查找策略SC-Search。节点首先对本地资源进行聚类,进而在节点间构建相似链接,基于相似链接进行资源查找。在网络结构方面构建了一个双层的覆盖网络。提出一种通过构造语义森林的算法对本地资源进行聚类,然后通过在节点间建立相似链接将网络中包含相似资源的节点聚类,同时对相似链接进行动态优化,使得相似节点集合在物理网络上更接近。查询请求在转发时,结合了定向模式和泛洪模式,并增设了动态TTL机制,进一步提高资源查找的成功率和效率。实验结果表明提出的策略是切实可行的。 王振华 熊景川 申德荣 于戈关键词:对等网络 资源查找 语义聚类 基于生命周期的Web服务合成架构研究 2010年 Web服务合成使Web服务的重用和组装以及提供增值服务成为可能。提出一个完善、有效的Web服务合成系统架构对于Web服务合成的发展和研究有着重要作用。根据Web服务合成生命周期的3个阶段,提出和讨论了一个基于Web服务合成生命周期的系统架构。该架构支持合成服务流程的建模、合成和执行调用。在建模阶段,使用可视化的流程定义器,经过图形解释器和定义语言文档解析后存入服务仓储。在合成阶段,考虑到异构问题引入基于本体的服务匹配器,还考虑到合成服务的服务质量(QoS)管理,因此使用基于多值背景值依赖的方法来查找符合用户偏好的服务。在执行阶段为了保证合成服务的正确执行,提供了监控器、异常处理器和事务适配器。 杨丹 申德荣关键词:WEB服务合成 生命周期 架构 服务质量 S-RSM:一种基于语义的数据空间资源搜索机制 被引量:2 2011年 数据空间技术是数据库管理技术的进一步发展,如何有效地搜索数据空间中的资源成为一个值得研究的问题.为此提出一种基于语义的数据空间资源搜索机制(S-RSM,Semantics-based Resource Search Mechanism for Dataspace).定义了资源描述模型,能够有效地将数据资源进行统一描述和包装;提出一种基于语义的资源搜索策略,利用Dbped ia语义知识库评估资源对象关联和语义项关联.同其它搜索策略相比,S-RSM在查全率和查准率等方面具有一定的优势. 寇月 申德荣 聂铁铮 赵宁 于戈关键词:数据空间 语义 资源描述 应用词法分析方法抽取Web查询接口模式 Deep Web中蕴含着大量高质量的数据,然而只有通过Web查询接口对Web数据库提交查询才能获取这些数据,因此,自动获取Web查询接口模式是实现Web数据库集成的关键.将Web查询接口模式的抽取过程看作一个词法分析的过... 王四维 申德荣 李英军 聂铁铮 寇月关键词:模式抽取 词法分析 文献传递