什么是ETL:
ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为“垃圾进,垃圾出”(garbage in, garbage out),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。目前有不少数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗并使这个过程可视化,此方面研究不多。
本文主要从两个方面阐述ETL和数据清洗的实现过程:ETL的处理方式和数据清洗的实现方
法。
(1)ETL的处理方式
本文所采用的ETL方法是数据库段区域中的ETL处理方式,它不使用外部引擎而是使用数据库作为唯一的控制点。由于源系统SQLserver2000是关系数据库,它的段表也是典型的关系型表。成功地将外部未修改数据载入数据库后,再在数据库内部进行转换。数据库段区域中的ETL处理方式执行的步骤是提取、装载、转换,即通常所说的ELT。这种方式的优点是为抽取出的数据首先提供一个缓冲以便于进行复杂的转换,减轻了ETL进程的复杂度。
(2)ETL过程中实现数据清洗的实现方法
首先,在理解源数据的基础上实现数据表属性一致化。为解决源数据的同义异名和同名异义的问题,可通过元数据管理子系统,在理解源数据的同时,对不同表的属性名根据其含义重新定义其在数据挖掘库中的名字,并以转换规则的形式存放在元数据库中,在数据集成的时候,系统自动根据这些转换规则将源数据中的字段名转换成新定义的字段名,从而实现数据挖掘库中的同名同义。
其次,通过数据缩减,大幅度缩小数据量。由于源数据量很大,处理起来非常耗时,所以可以优先进行数据缩减,以提高后续数据处理分析效率。
最后,通过预先设定数据处理的可视化功能节点,达到可视化的进行数据清洗和数据转换的目的。针对缩减并集成后的数据,通过组合预处理子系统提供各种数据处理功能节点,能够以可视化的方式快速有效完成数据清洗和数据转换过程。
博客归档
-
▼
2008
(99)
-
▼
十一月
(40)
- CSS调试工具Multiple IE - IE5 IE6 IE7 多版本共存
- 什么是ETL ? [详细解说]
- 测试 空间是否 支持 .htaccess
- 视频: 少林寺插曲 牧羊曲
- 王码五笔字根表(98&86)有图例
- 星际争霸虫族任务第二关怎样将蛹送到传送点?
- You cannot prevent Internet Explorer 6 from cachin...
- 301重定向和302跳转的区别
- 解决 firefox 中不支持 cursor:hand (超连接小手)
- 用CSS 实现 image按钮 详解 带实例
- Windows Internet Explorer 7 for Windows XP downloa...
- 消重 Mysql row data 记录
- 上载文件表单的实现 -- 实例
- 如果使用 Curl 实现远程请求 实例
- Javascript 控制按扭只能点击一次
- JavaScript : charAt , jtrim 几种去掉字串左右空格的方法
- javascript : getAttribute , RegExp 验证代码
- linux scp 命令详解 使用示例
- linux ls -- 列文件和文件夹 详解
- linux alias -- 别名 详细 讲解
- 喝酒......
- [奇异搞笑]给软件工程师的一封求助信......
- 赶集卖猪(加长版)经济危机的故事
- 谷歌解析美国富翁购物秘笈:最有钱人最爱网购
- 万科停工 传深圳项目每天亏损一辆悍马
- GROUP_CONCAT()妙用
- PHP 纯粹分页类 超强 超好用 有范例
- TP-LINK产品复位大全(路由器初始化恢复出厂默认值)
- 什么是跨站攻击?跨站攻击是什么意思?
- $_SERVER['SCRIPT_NAME'] 与 $_SERVER['PHP_SELF'] 有什么区别?
- 注意$_SERVER['PHP_SELF']可能引起的跨站攻击.
- 谷歌浏览器Chrome的用户代理字符串 User Agen
- 浏览器的 User Agent 详解
- Starting httpd: httpd: Could not reliably determin...
- 如何使用CentOS光盘通过yum来安装X Window System
- CentOS环境下安装Oray的花生壳Linux客户端
- linux tar命令 实战详解
- linux tar命令详解
- 轻松制作Favicon。非常好用的一个工具!
- 什么是 SNS, SNS是什么 ?
-
▼
十一月
(40)
没有评论:
发表评论