您的位置: 专家智库 > >

西安工业大学校长基金(XAGDXJJ-200715)

作品数:1 被引量:3H指数:1
相关作者:徐飞姚红革张素芹更多>>
相关机构:西安工业大学更多>>
发文基金:西安工业大学校长基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇数据提取
  • 1篇WEB表格
  • 1篇XML
  • 1篇HTMLPA...

机构

  • 1篇西安工业大学

作者

  • 1篇张素芹
  • 1篇姚红革
  • 1篇徐飞

传媒

  • 1篇西安工业大学...

年份

  • 1篇2009
1 条 记 录,以下是 1-1
排序方式:
面向结构的Web表格数据抽取系统被引量:3
2009年
针对Web数据挖掘预处理中,Web表格无结构化描述及缺乏清晰语义信息的问题,构建了面向结构的Web表格数据提取系统.利用HTMLParser库的解析原理,设计启发式规则对Web表格结构进行定位、识别、提取并剔除非数据型结构;以Xml规范化模型对提取表格数据进行存储.最后抽取9个中文网站171个数据表格进行验证试验,结果表明对于结构化完整的表格具有较高的识别率并有一定的容错能力.
徐飞张素芹姚红革
关键词:HTMLPARSERWEB表格数据提取XML
共1页<1>
聚类工具0