您的位置: 专家智库 > >

常丽君

作品数:2 被引量:2H指数:1
供职机构:南京财经大学信息工程学院更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇中文期刊文章

领域

  • 2篇自动化与计算...

主题

  • 2篇网页
  • 2篇网页数据
  • 2篇抽取
  • 2篇抽取技术
  • 1篇对齐
  • 1篇树匹配
  • 1篇基于本体
  • 1篇包装器
  • 1篇本体
  • 1篇标签

机构

  • 2篇南京财经大学

作者

  • 2篇常丽君
  • 1篇钱钢

传媒

  • 1篇计算机应用研...
  • 1篇电脑知识与技...

年份

  • 1篇2015
  • 1篇2014
2 条 记 录,以下是 1-2
排序方式:
面向不规则列表的网页数据抽取技术的研究被引量:1
2015年
抽取列表页中的列表数据可以用于进一步的数据挖掘以及数据集成等系统。针对怎样提高自动抽取列表页数据的准确率和适应性进行了研究。在研究已有的多数据区域挖掘算法和数据记录识别算法的基础上,针对列表页数据记录组织方式的多样性改进了数据记录识别算法,提高了识别数据记录的准确率。而对于数据记录之间的不规则性问题,在已有的标签树匹配算法的基础上加入了对节点内容的考虑,提高了两棵标签树匹配的准确率。根据构成数据记录的标签树之间的匹配结果,再采用部分树对齐算法生成一个数据记录的最大匹配结构,进而用于抽取出所有数据记录。实验结果表明,提出的改进算法有效提高了自动抽取列表页数据的准确率和适应性。
常丽君钱钢
基于本体的网页数据抽取技术的研究被引量:1
2014年
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。
常丽君
关键词:本体包装器
共1页<1>
聚类工具0