您的位置: 专家智库 > >

国家自然科学基金(60970018)

作品数:10 被引量:42H指数:4
相关作者:李石君田建伟余伟张乃洲张卓更多>>
相关机构:武汉大学广西财经学院武汉理工大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术自然科学总论理学更多>>

文献类型

  • 9篇中文期刊文章

领域

  • 7篇自动化与计算...
  • 2篇自然科学总论
  • 1篇理学

主题

  • 3篇DEEP_W...
  • 2篇接口
  • 1篇形式概念分析
  • 1篇引擎
  • 1篇语义
  • 1篇语义分析
  • 1篇容差
  • 1篇容差关系
  • 1篇深层网络
  • 1篇属性值
  • 1篇树模型
  • 1篇数据抽取
  • 1篇数据提取
  • 1篇数据质量
  • 1篇搜索
  • 1篇搜索模型
  • 1篇搜索引擎
  • 1篇索引
  • 1篇中文
  • 1篇网络

机构

  • 6篇武汉大学
  • 1篇湖北大学
  • 1篇武汉理工大学

作者

  • 4篇李石君
  • 3篇田建伟
  • 2篇余伟
  • 2篇张卓
  • 2篇张乃洲
  • 1篇孔亚楠
  • 1篇张晶星
  • 1篇余跃
  • 1篇文利娟

传媒

  • 3篇Wuhan ...
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇计算机学报
  • 1篇小型微型计算...
  • 1篇计算机系统应...
  • 1篇电脑知识与技...

年份

  • 1篇2012
  • 3篇2011
  • 5篇2010
10 条 记 录,以下是 1-9
排序方式:
中文深层网络的模式匹配和接口集成
2012年
目前国内外在深层网络方面的研究几乎都围绕英文环境进行,还没有针对中文深层网络的研究.提出了对中文深层网络进行模式匹配和接口集成的方法.该方法首先创建一个用来存储同义词、超义词和子义词的字典,然后使用基于规则的分词算法将从接口中抽取的属性分成词.对于每一个属性,从定义的字典中找到其对应的所有同义词、超义词和子义词,生成一条相应的记录并存储到列表中,再从每条记录中选取出现次数最多的属性作为联合接口的属性.
张晶星
关键词:分词算法词典接口集成
基于数据质量的Deep Web数据源排序被引量:8
2010年
Deep Web技术使得大量隐藏在接口背后的有用信息更容易被用户查找到.然而,随着数据源的增多,如何从众多的数据源中快速地找到合适的结果这一问题变得越来越重要.通过传统的链接分析方法和相关性评估方法来对数据源进行排序,已经不能满足高精度的要求.提出一种通过抽样方法和数据质量评估来判断数据源的优劣性的算法.本文提出的抽样方法,改进了分层抽样和雪球抽样,使得在较少的样本点时,能够准确的反映整体特征.定义了能基本反映数据源的优劣程度的6个主要质量标准,并给出计算方法;通过质量标准,结合权重向量来量化数据源的质量.实验通过对数据源进行抽样分析,求解数据源得分的期望值,并根据该期望值对数据源进行了整体排序.结果表明,利用抽样对数据源的数据质量进行估计和评分,具有很好的准确性和可操作性.
余伟李石君文利娟田建伟
关键词:抽样估计数据质量
基于格空间的受限Deep Web数据抽取算法被引量:3
2011年
将返回结果受限的Deep Web数据源中预测查询结果大小并且抽取的问题转化为概念覆盖问题.首先证明由属性及属性组合产生的集合划分之间为容差关系,进而又证明其构成一个完全格,并且与概念格同态.使用概念间的偏序关系来刻画属性间的相关性,使用概念内涵为查询属性,概念外延为返回结果的预测,基于外延的势剪枝后的概念格为搜索空间,最终提出一种基于格空间的Deep Web数据抽取算法.实验由可控实验和实际应用实验组成,结果证明该算法理论正确性和现实应用的可行性及有效性.
张卓李石君张乃洲田建伟
关键词:数据抽取容差关系形式概念分析概念格
基于层次树模型的Deep Web数据提取方法被引量:16
2011年
网络在成为信息查询和发布平台的同时,海量的信息隐藏在查询受限的Web数据库中,使得人们无法有效地获取这些高质量的数据记录.传统的Deep Web搜索研究主要集中在通过关键字接口获取Web数据库内容.但是,由于Deep Web具有多属性和top-k的特点,基于关键字的方法具有固有的缺点,这就为Deep Web查询和检索带来了挑战.为了解决这个问题,提出了一种基于层次树的DeepWeb数据获取方法,该方法可以无重复和完整地提取Web数据库中的数据记录.该方法首先把Web数据库模型化为一棵层次树,Deep Web数据获取问题就转化为树的遍历问题.其次,对树中的属性排序,缩小遍历空间;同时,利用基于属性值相关度的启发规则指导遍历过程提高遍历效率.最后,在本地模拟数据库和真实Web数据库上的大量实验证明,这种方法可以达到很好的覆盖度和较高的提取效率.
田建伟李石君
关键词:数据提取互信息
基于语义分析的社区房屋搜索模型
2010年
考虑到社区中非结构化信息的广泛性和语义分析的优点,设计了基于语义的社区房屋搜索引擎的模型。其一,该模型能从社区中的无结构化信息得到结构化信息,使得有用信息来源更加广泛;其二,该模型采用基于语义的检索,可减小搜索范围,提高检索精度。并重点介绍文本分析索引模块,其中分析器用来分析文档,索引器用来建立语义索引和关键字。
孔亚楠余跃
关键词:搜索引擎语义分析
Web Database Sampling Approach Based on Attribute Correlation
2010年
In this paper,we present a novel approach utilizing attributes correlation for the sampling task on nonuniform hidden databases. We propose the method of calculating the attributes dependency and construct the sampling template according to the attributes dependency. Then,we use the sampling template to gen-erate initial sampling queries and propose a bottom-up algorithm to search the sampling template. We also conduct extensive ex-periments over real deep Web sites and controlled databases to illustrate that our sampling method has good performance both on the quality and efficiency.
TIAN Jianwei, LI Shijun, TANG Xiaoyue School of Computer, Wuhan University, Wuhan 430072, Hubei, China
Analysis of SEIQ Immunization Model Strategy in Small-World被引量:1
2010年
In this paper, we analyze an immunization strategy in SEIQ (susceptible, eclipse, infected, quarantine) model in small- world networks by associating the immunization probability with the infection probability. First, based on the mean-field theory, we establish the transmission dynamics equation for SEIQ model and find the relevant critical threshold of immunization which is re- lated to the topology of the network, the infection rate of the eclipse and infection, the density of quarantine and so on. Then we explain the influence of the immunization probability to the transmission of infectious disease. Finally, by simulating the propagation of this model on disease and comparing the results with theory results, we find that this kind of immunization strategy is effective in SEIQ model in small-world complex networks.
CHEN Shengshuang, ZHOU Jiahua, WEN Lijuan, HUANG Zhangcan School of Science, Wuhan University of Technology, Wuhan430070, Hubei, China
关键词:IMMUNIZATION
Subposition Assembly-Based Construction of Non-Frequent Concept Semi-Lattice
2011年
An efficient way to improve the efficiency of the applications based on formal concept analysis (FCA) is to construct the needed part of concept lattice used by applications. Inspired by this idea, an approach that constructs lower concept semi-lattice called non-frequent concept semi-lattice in this paper is introduced, and the method is based on subposition assembly. Primarily, we illustrate the theoretical framework of subposition assembly for non-frequent concept semi-lattice. Second, an algorithm called Nocose based on this framework is proposed. Experiments show both theoretical correctness and practicability of the algorithm Nocose.
ZHANG ZhuoZHANG RuiGAN LinYU WeiLI Shijun
使用联合链接相似度评估爬取Web资源被引量:7
2010年
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率.
张乃洲李石君余伟张卓
关键词:Q学习
共1页<1>
聚类工具0