山东省自然科学基金(Y2007G24)
- 作品数:3 被引量:17H指数:2
- 相关作者:丁艳辉董永权李庆忠彭朝晖张永新更多>>
- 相关机构:山东大学徐州师范大学更多>>
- 发文基金:山东省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于约束条件随机场的Web数据语义标注被引量:9
- 2012年
- Web数据语义标注是Web信息抽取中的关键步骤.条件随机场是利用序列特征处理序列标注问题的经典方法.然而现有条件随机场模型无法综合利用已有的Web数据库信息和Web数据元素之间的逻辑关系,导致Web数据语义标注准确率不高.因此,提出一种约束条件随机场模型(CCRF).该模型通过引入可信约束和逻辑约束,有效利用了已有的Web数据库信息和Web数据元素之间的逻辑关系.为了克服现有条件随机场模型Viterbi推理方法无法综合利用这2类约束的不足,该模型采用整数线性规划推理方法,将两类约束同时引入推理过程.通过在多个领域的真实数据集上的实验结果表明,所提出的模型能够显著提高Web数据语义标注的性能,并且为Web信息抽取奠定了良好的基础.
- 董永权李庆忠丁艳辉彭朝晖
- 关键词:语义标注WEB信息抽取条件随机场整数线性规划WEB数据集成
- 一种基于证据理论和任务分配的Deep Web查询接口匹配方法被引量:2
- 2011年
- 针对已有查询接口匹配方法匹配器权重设置困难、匹配决策缺乏有效处理的局限性,提出一种基于证据理论和任务分配的DeepWeb查询接口匹配方法.该方法通过引入改进的D-S证据理论自动融合多个匹配器结果,避免手工设定匹配器权重,有效减少人工干预.通过对任务分配问题进行扩展,将查询接口的一对一匹配决策问题转化为扩展的任务分配问题,为源查询接口中的每一个属性选择合适的匹配,并在此基础上,采用树结构启发式规则进行一对多匹配决策.实验结果表明ETTA-IM方法具有较高的查准率和查全率.
- 董永权李庆忠丁艳辉张永新
- 关键词:DEEPWEB数据集成
- 基于集成学习和二维关联边条件随机场的Web数据语义标注方法被引量:6
- 2010年
- 大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.
- 丁艳辉李庆忠董永权彭朝晖
- 关键词:WEB信息抽取语义标注条件随机场
- 基于关联网络的分布式构件库服务协同
- 当前构件库分布分散存储,而共享交互需求又大大增加。设计了一个基于关联网络的分布式构件库体系结构,提出了一个基于令牌传递的构件库服务协同算法。并对算法进行了进一步讨论和性能模拟实验。
- 张抗抗赵志崑徐如志杨峰
- 关键词:关联网络分布式构件库
- 文献传递
- 社区云计算环境中的一种数据分布及搜索策略
- 业务数据搜索是商业社区云面向云用户或第三方应用提供的基本服务,在动态、开放的社区云环境中,业务数据更为复杂,商业目标对数据搜索服务也提出了更高的要求.以面向旅游的社区云为背景,讨论一种透明、虚拟化的商业数据搜索服务的实现...
- 何伟李庆忠郑永清崔立真
- 关键词:云计算数据分布数据搜索分布式计算
- 文献传递