您的位置: 专家智库 > >

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇WEB
  • 1篇正则
  • 1篇正则表达式
  • 1篇特征提取
  • 1篇图像
  • 1篇图像过滤
  • 1篇清洗技术
  • 1篇自动机
  • 1篇文档
  • 1篇文档转换
  • 1篇解析器
  • 1篇决策树
  • 1篇函数
  • 1篇法器
  • 1篇WEB图像
  • 1篇XPATH
  • 1篇HTML解析
  • 1篇HTML解析...
  • 1篇INTERN...

机构

  • 4篇南京大学

作者

  • 4篇王强
  • 3篇张福炎
  • 3篇武港山
  • 3篇王强
  • 2篇王继成
  • 1篇张波
  • 1篇李景春

传媒

  • 2篇计算机研究与...
  • 1篇计算机应用研...
  • 1篇中文信息学报

年份

  • 2篇2002
  • 1篇2001
  • 1篇2000
4 条 记 录,以下是 1-4
排序方式:
Web文档清洗系统中HTML解析器的开发被引量:14
2002年
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典。
王强王强王继成武港山
关键词:HTML解析器WEBINTERNET
Web图像清洗技术的研究与实现被引量:3
2002年
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性 .
张波王继成王强王强
关键词:WEB特征提取决策树图像过滤
对XPath模式定位能力的扩充被引量:4
2001年
基于一般结构模式的定位手段对一个完备的面向 XML文档内容的定位机制来说是重要的 ,而 XPath在这方面还有所欠缺 .首先通过实例分析阐明了 XPath提供基于一般结构模式的定位手段的必要性 ,随后通过一些扩充定义来改善它的表示能力 .扩充从概念、语法描述和执行机制 3个方面展开 ,概念上 ,引入了结点序列模式和结点正则表达式的定义 ;语法描述上 ,为 XPath扩充了数据类型 N Regex Type和结点序列模式匹配函数 match;执行机制上 ,定义了一个用于分析结点序列模式匹配过程的形式化自动机 .
王强武港山
关键词:正则表达式函数自动机XPATH
面向置标文档的文档转换技术研究被引量:2
2000年
文档系统间的转换是文档内容共享和协作的必然途径 ,转换根据不同应用目的包括失真 ,不失真和增值三种方式。置标文档是用标签 (Tag)进行文档结构描述的文档。本文介绍了一种面向置标文档的文档转换增值技术 ,给出了一种文档转换描述语言 ,用户可以利用它来定义转换信息从而实现文档间复杂的转换。
李景春武港山王强王强
共1页<1>
聚类工具0