安徽省自然科学研究项目(2005KJ004ZD)
- 作品数:2 被引量:15H指数:2
- 相关作者:谭守标徐超秦振海李健更多>>
- 相关机构:安徽大学更多>>
- 发文基金:安徽省自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于Web的表格信息抽取研究被引量:8
- 2010年
- 如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。
- 秦振海谭守标徐超
- 关键词:HTML表格信息抽取WEBXML
- 一种Web数据挖掘系统的设计和研究被引量:7
- 2009年
- Web数据挖掘是指从众多的Web网站、网页上挖掘出有用数据和知识的过程,因其具有广泛的应用前景而成为当前IT研究的热点之一,同时它也是一个具有挑战性的研究领域,存在很多问题亟待解决。针对一个案例,设计一个系统(或模型)实现Web数据的挖掘,是一次实践性研究。系统采用当前流行的软件工具(VS2005和SQL2000数据库)和编程语言(C#)进行开发设计,主要由数据的下载、预处理、后处理和前台检索等模块组成,基本达到Web数据挖掘的目的。
- 李健徐超谭守标
- 关键词:WEB数据挖掘下载预处理后处理