MK SPORTS集团(中国)

亿信ABI

一站式数据分析平台

ABI(ALL in one BI)是MK SPORTS集团(中国)历经19年匠心打造的国产化BI工具,技术自主可控。它打通从数据接入、到数据建模与处理、再到数据分析与挖掘整个数据应用全链路,可满足企业经营中各类复杂的分析需求,帮助企业实现高效数字化转型。

在线免费试用 DEMO体验 视频介绍

亿信ABI

一站式数据分析平台

MK SPORTS集团(中国)深耕商业智能十多年,
打造一体化的填报、处理、可视化平台。

ETL与大数据的关系是什么

时间:2020-07-31来源:知乎浏览数:2679

ETL 是”Extract”,”Transform”和”Load”3 个单词的首字母缩写,是数据抽取、转换、装载的意思,一般将 ETL 简写为数据抽取。 ETL 是构建数据仓库和数据挖掘的很重要的一部分。本文顺利获得介 绍 ETL 技术架构,分析常见 ETL 工具,讨论了 ETL 技术对商业领 域的意义。ETL 技术很大程度上提高了数据输入的质量,为大数据 分析和数据挖掘给予巨大的支持。

一、ETL 体系架构

下图为 ETL 体系结构,它是主流 ETL 产品框架的主要组成部分。ETL 是指从源系统中提取数据,转换数据为一个标准的格式, 并加载数据到目标数据存储区,通常是数据仓库。


(一)数据抽取

数据抽取就是从外部不同的数据源中抽取数据,需要确认数 据的来源和以及将到的数据抽取技术。数据抽取分为数据增量抽 取和全量抽取。增量抽取一般有 4 种抽取模式:

①时间戳方式:顺利获得比较需要抽取的数据库系统时间戳与抽取源表的时间戳字段的 值来决定抽取哪些数据,这种方式需要源表中存在一个或多个时间戳字段,并且其值随着新纪录的增加而不断增加,执行数据抽取时,程序顺利获得时间戳对数据进行过滤,抽取设定的时间戳的数据;

②全表对比方式:每次从源表中读取所有记录,然后逐条比较源表 和目标表的记录,将新增和修改的记录过滤读取出来,采用 MD5 校验码。

③触发器方式:根据抽取要求,要建立插入、修改和删除 3 个 触发器,该方法需要用户在源数据库中有创建触发器和临时表的 权限,触发器可以捕获新新增的数据到临时表中,在进行抽取时, 程序会自动从临时表中读取新增的数据。

④志表方式:该方法是在 数据库中创建业务日志表,当系统监控的业务数据发生特定的变 化时,日志表内容会记录更新。日志表的维护需要编写特定的程序代码来完成。

(二)数据转换

数据转换是 ETL 过程中最为繁琐的部分,主要任务包括数据 类型转换、数据格式转换等,可以在数据抽取过程中利用关系数据 库的特性进行转换和在 ETL 引擎工具中完成。 一般来说,从数据源中抽取的数据是不符合入数据仓的要求, 有必要对数据进行转换、清洗、拆分、汇总等处理,解决数据格式的不一致、数据输入错误、数据不完整等问题。进行数据转换的原因 有以下几点:

①数据不完整性:在数据库中有信息缺失,从而导致数据的不完整性。解决的办法是找到错误信息进行补全;

②数据格式错误:指的是缺失数据值或数据超出数据范围的问题,解决办法 是定义域完整性进行格式约束;

③数据不一致性:表现为主表与子 表的数据不能匹配,一般原因是缺少外键的定义,需要找由业务部 门对数据进行核对,修正后再进行抽取。

(三)数据加载

数据加载一般是 ETL 的最后一步。是值将抽取和转换的数据 从数据临时表或者文件中导入到指定的数据仓库,装载数据的最 佳方法一般是取决于所执行操作的类型以及需要装入多少数据。 有两种装载方式:

①一种是直接 SQL 语句进行操作;

②采用关系数 据库特有的装载工具批量进行装载,甚至可以采用多程并行处理 方式加载数据,提高程序运行效率。

二、ETL 常见工具

当选择 ETL 产品时, 最关键的因素是考虑这个产品在你的指定的环境和配置下,这个产品的执行性能。当你选择一个 ETL 工具 时,需要考虑选中工具的因素有:

(1)能够支持分布的数据整合需 要并且要允许你借助于手头的资源和技术

(2)数据整合工具的使 用不应该干扰你现在的环境, 而是应该充分利用由 RDBMS 和 SQL 给予的能力和功能。

顺利获得 ETL 工具,实现 ETL 数据抽取,主要是原因是维护容易。 现在市场上主流的 ETL 工具可以分为两大类:一类是专业 ETL 厂 商的产品,这类产品一般都具备较完善的体系结构和久经考验的 产品,功能复杂而详尽;

另一类是整体数据仓库方案供应商,他们在给予数据仓库存储、设计、展现工具的同时也 给予相应的 ETL 工具。比如MK SPORTS集团(中国)的数据工厂系统等

三、ETL 技术在商业领域的作用

在商业领域中,商业智能(Business Intelligence)的关键是 从许多的来自不同的企业运作系统的数据,经过提取和清理取得 有用并且准确的数据,经 ETL 过程,合并到企业级的数据仓库里, 从而得到企业数据的一个全局视图,为管理者决策过程给予支持。 ETL 在整个 BI 过程中起到承上启下的作用,ETL 的成败将直接影 响整个 BI 项目的成功与否。ETL 技术可以使得商业分析速度加 快,使公司的业务取得决策更多的决策时间。随着 ETL 技术成本下 降和计算能力的增长, 分析技术开始从内存与存储价格的下降中 获益。同时,随着开源软件挖掘出更有价值的数据,从海量的数据 中发现之前用户的真正搜索需要的数据,支撑决策。

市面上大多BI工具都不含ETL功能,在进行上述项目时,通常会用到BI、ETL两个工具,成本高、花费时间长。而亿信ABI基于这个需求,依赖十余年数仓经验,推出可视化ETL功能,顺利获得简单的拖拽就可以完成ETL过程。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询

联系客服

扫描下方二维码,添加客服

亿信微信二维码

扫码添加好友,获取专业咨询服务