数据仓库、数据平台、数据中台、数据湖

2024-07-17 09:12 栏目: 技术学堂 查看()

数据中台

数据中台通过对企业内外部多源异构的数据采集、建设、管理、分析和应用,使数据对内优化管理提高业务价值,对外进行数据合作让业务价值得到释放,使之成为企业数据资产管理中枢。数据中台建立后,会形成数据API服务,为企业和客户提供高效各种数据服务。

数据中台的特点:

数据中台为解耦而生,企业建设数据中台的最大意义就是应用与数据之间的解耦,这样企业就可以不受限制地按需构建满足业务需求的数据应用。

构建了开放、灵活、可扩展的企业级统一数据管理和分析平台, 将企业内、外部数据随需关联,打破了数据的系统界限。

利用大数据智能分析、数据可视化等技术,实现了数据共享、日常报表自动生成、快速和智能分析,满足企业各级部间的数据分析应用需求。

数据仓库

为了避免冷数据与历史数据的积压对我们业务数据库效能产生影响,企业需要定期将冷数据从业务数据库中转移出来存储到一个专门存放历史数据的仓库里面,各部门可以根据自身业务特性对外提供统一的数据服务,这个仓库就是数据仓库。

数据仓库的特点:

面向主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面向主题的。例如,电商行业的主题域通常分为交易域、会员域、商品域等。

集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。

稳定的:数据一旦进入数据仓库,则不可改变。数据仓库的历史数据是不应该被更新的,同时存储稳定性较强反映历史数据变化的

数据仓库的作用:

image.png 

数据湖

数据湖是一个集中式存储库,您可以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据,并运行不同类型的分析从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

数据湖的特点:

Ø 统一的数据存储,存放原始的数据。

Ø 支持任意结构的数据存储,包括结构化、半结构化、非结构化。

Ø 支持多种计算分析,适用多种应用场景。

Ø 支持任意规模的数据存储与计算能力。

Ø 目标都是为了更好,更快的发现数据价值。

数据湖解决的问题:

数据分散,存储散乱,形成数据孤岛,无法联合数据发现更多价值。

这方面来讲,其实数据湖要解决的与数据仓库是类似的问题,但又有所不同,因为它的定义里支持对半结构化、非结构化数据的管理。而传统数据仓库仅能解决结构化数据的统一管理。

在这个万物互联的时代,数据的来源多种多样,随着不同应用场景,产出的数据格式也是越来越丰富,不能再仅仅局限于结构化数据。如何统一存储这些数据,就是迫切需要解决的问题。

数据平台

大数据时代,数据平台一般被称之为大数据平台。大数据平台通常被赋予更多的使命,以处理海量数据存储、计算及不间断流数据实时计算、离线计算、智能推荐、交互式查询、数据湖构建等场景为主的一套基础设施。典型的包括基于Hadoop 生态构建的大数据平台。提供易于部署及管理的 HiveSparkHBaseFlinkStarRocksIcebergAlluxio 等开源大数据计算和存储引擎。

指标

数据仓库

数据中台

数据湖


建设成本

极高


建设难度

极高


建设思想

以数据驱动,自下而上

以业务驱动,自上而下

以技术和业务驱动,自上而下


业务距离

用于支持管理决策分析,距离业务远,无法直接体现业务价值

加速企业从数据到业务价值的转变加速企业从数据到业务价值的转变过程,一定程度上体现业务价值

加速企业从数据到业务价值的转变过程,一定程度上体现业务价值


资源成本

传统:存储计算绑定,成本高

云原生:Serverless化,成本低

传统:存储计算绑定,使用成本高、运维成本高

云原生:Serverless化,成本低

存储计算分商,数据冷热分层,使用成本低,运维成本低


数据格式

封闭、专属

开放、通用

开放、通用


数据内容

数据类型单一:结构化和郎分半结构化

数据类型丰富:结构化、半结构化、非结构化

数据类型丰富:结构化、半结构化、非结构化


数据访问方式

SQL,少量支持API

开放API,支持SQL等

开放AP,直接读取数据SQLPython、R等


数据服务方式

分析报表既服务

API既服务

原始数掘既服务


性能

存储计算深度优化,性能高

通过缓存、索引、分布等方式优化,性能高

通过缓存、索引、分布等方式优化,性能高


扩展性

扩展性一般,扩展成本高

扩展性一般,扩展成本高

低成本,高扩展性


灵活度

预先建模,Schmema-on-Write,灵活度低

预先建模,Schmema-on-Write,灵活度低

无需提前建模,Schmema-on-Read,灵活度高


处理结构

ETL结构

ETL结构

-


使用场景

B1、SQL应用和报表等有限场景

数据检索、机器学习、数据挖据、B1等丰富场爱

数据科学、数据挖掘、机器学习、B1等丰富场景


指标

数据仓库

数据平台

数据类型

数据类型单一:结构化和部分半结构化

数据类型丰富:结构化、半结构化、非结构化

服务方式

为业务提供报表分析

为业务提供数据集

据以上数据平台、数据仓库、数据湖和数据中台的对比,我们进行如下总结

1.数据中台、数据仓库和数据湖没有直接的关系;

2.数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,为业务提供服务的主要方式是数据 API

3.数据仓库是数据驱动业务的逻辑概念,用于支持管理决策分析,为业务提供服务的主要方式是报表;

4.数据湖是企业级的技术逻辑概念,体现企业级数据湖架构加速数据向业务价值转化的能力,为业务提供服务的主要方式是原始数据;

5.数据中台可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值的过程的中间层。


扫二维码与商务沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:小伙伴科技以外的任何非授权单位或个人,不得使用我公司案例作为工作成功展示!