您的位置: 专家智库 > >

俞荣华

作品数:5 被引量:58H指数:2
供职机构:复旦大学信息科学与工程学院计算机科学系更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 2篇期刊文章
  • 2篇会议论文
  • 1篇学位论文

领域

  • 5篇自动化与计算...

主题

  • 3篇数据库
  • 3篇数据清洗
  • 2篇数据清洗系统
  • 2篇数据挖掘
  • 2篇可扩展
  • 1篇数据标准
  • 1篇数据标准化
  • 1篇数据仓库
  • 1篇数据集
  • 1篇数据集成
  • 1篇数据质量
  • 1篇数据准备
  • 1篇重复记录检测
  • 1篇相似重复记录
  • 1篇聚类
  • 1篇可视化

机构

  • 5篇复旦大学

作者

  • 5篇俞荣华
  • 4篇田增平
  • 4篇周傲英
  • 2篇郭志懋

传媒

  • 2篇第18届全国...
  • 1篇计算机工程
  • 1篇计算机科学

年份

  • 1篇2003
  • 2篇2002
  • 2篇2001
5 条 记 录,以下是 1-5
排序方式:
一个可扩展的数据清洗系统
在给数据挖掘这样的应用准备数据的过程中,面临着一系列数据清洗问题.然而要把数据清洗过程做得很灵活并不那么简单,已有的工具往往过于依赖特定的应用.该文提出并实现了一个可扩展的数据清洗框架.它以术语模型、处理描述文件、共享库...
俞荣华郭志懋田增平周傲英
关键词:数据准备数据清洗数据库
文献传递
一个可扩展的数据清洗系统被引量:14
2003年
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
郭志懋俞荣华田增平周傲英
关键词:数据挖掘数据清洗系统数据标准化数据集成可视化
一种检测多语言文本相似重复记录的综合方法被引量:45
2002年
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
俞荣华田增平周傲英
关键词:数据仓库数据挖掘数据库
数据质量和数据清洗关键技术研究
该文在归纳、总结了数据质量问题和数据清洗相关研究的现状的基础上提出一个可扩展的数据清洗框架的定义和一个检测多语言数据重复记录的综合方法,并以此为基础实现了一个数据清洗系统EDCF.具体地说,该文的贡献如下:1.提出了一个...
俞荣华
关键词:数据质量数据清洗重复记录检测
文献传递
一种基于聚类的多语言文本相似记录检测算法
本文研究了在多语言文本条件下如何检测相似重复记录,提出了一种有效的综合方法,其优点是时间复杂度小,检测精度高,能很好地适应数据规模地变化.
俞荣华田增平周傲英
关键词:数据库聚类
文献传递
共1页<1>
聚类工具0