数据中台的灵魂拷问

2025-03-03 10:43 栏目: 技术学堂 查看()

数据实际上是一个非常传统的行业。

有软件开始的那一天起,数据这个行业就存在了。比如说原来最早的时候,有非常多的数据报表数据可视化,后来有了商业智能,有了Data Warehouse(就是数据仓库),然后数据挖掘,并且在数据这个行业里面是有非常多的巨头的,比如teradatacognosbieemicrostrategy等。

数据这个行业不仅仅是软件,它还有管理的部分,也就是说数据治理,即如何让企业的数据治理的质量更好。所以数据这个行业本身是一个非常传统的行业。每个大型一点的企业都有自己的数据分析部门,数据仓库部门。

 

那么为什么数据湖也好,数据平台也好,在过去都没有像今年数据中台这么热门。而且关注数据中台的还不仅仅是技术部门,很多都是业务部门。那么业务部门为什么这么热衷于数据中台,业务部门以前不是特别关注这些技术的数据平台和这些技术的概念。 

讲到数据中台,我们就要提到平台化。

平台化的概念

在现代企业架构与技术应用领域,平台化的思路具有至关重要的意义。其核心要点在于,将具备共性的资源以及相同或相似的能力进行深度整合与归并,同时把面向客户的价值进行独立呈现与聚焦。

通过这样的方式,不同领域的专业人员能够专注于各自所擅长的专业事务,各司其职,从而极大地提高工作效率与质量。从企业绩效的角度审视,这种分工模式也具有显著的优势。资源与能力的清晰划分,避免了繁杂事务的交织,使整个业务流程更为清晰、透明,有助于提升企业整体绩效,这便是平台化思路的精髓所在。

在当今的企业架构体系中,不管是何种类型的中台架构,其本质都是平台思想的具体体现与生动实践。从软件技术视角深入剖析,其中涉及到一个重要的概念——企业应用集成(EAI)。

回顾企业应用集成发展的早期阶段,其采用的是点对点的集成形式。在彼时,企业业务系统中并不存在严格意义上的前后台之分。例如,在企业运营过程中,所有业务系统在涉及到财务结算相关工作时,均会依托财务系统来完成;而在涉及到项目核算与管理方面,所有系统又都会与项目系统紧密关联,其中项目编码(WBS code)是非常关键的一个环节。

在这种情况下,企业内部存在着众多功能被多个其他系统调用的系统,整个企业应用集成架构呈现出复杂的网状点对点集成模式。这种模式存在诸多弊端,各系统之间的交互摩擦频发,导致数据的一致性和规则性难以保障。常常会出现数据不统一、规则不一致等问题,使得企业的运营管理面临诸多挑战,工作效率也受到严重影响。

面对这种复杂的局面,平台化思路为我们提供了有效的解决方案。在企业技术架构中,ESB(企业服务总线)扮演着至关重要的角色。通过采用面向服务的架构(SOA)模式,ESB能够将多个可复用的服务进行抽象与提炼,使其成为企业级的service(服务)。这些企业级服务可以在ESB上被其他的服务消费者所便捷调用,而ESB本身实际上就是一个强大的平台。

平台化的一大显著优势在于能力复用,通过将可复用的能力进行整合与抽象,避免了重复开发与建设所带来的资源浪费,同时也减少了各系统之间的交互摩擦。在企业信息技术系统以及业务系统的构建与优化过程中,只要某一层面或功能模块具备可复用性,能够被多个其他系统或流程所共享与调用,那么我们就可以将其视为中台架构的一部分,进而利用平台化思路对其进行优化与整合,以提升企业整体的运营效率和竞争力。

 

中台是介于前台和后台之间的一个系统。那么后台实际上对我们现在来讲的话,大部分情况下指的就是企业里的SAP,后台的财务,hr系统,客户距离市场跟进的系统。 

中台里面很重要的两个中台,一个是业务中台,一个是数据中台。业务中台是提供可复用的业务,API数据中台是提供数据洞察和智能的。

数据中台为什么这么火?

1、数据中台和传统的数据系统出发点不一样

原来的数据平台也好,数据湖也好,数据仓库也好,它们的出发点很多时候有局限性,应该说更是一个支撑性的技术系统,即一定要去考虑我先有什么数据,然后我能干什么,这是传统的数据平台,数据湖,依赖于现有数据的质量,现有数据的状况来做的这样的一个支撑性的技术平台。

 

但是数据中台在我们现在所讲的概念里面,它更多的是从业务出发,比如说我们现在所设计的一套精益数据的方法,它就是从业务出发,一开始都不用看你系统里面有什么数据,重点的是去解决你的业务需要什么样的数据服务?

 

作为第一出发点,作为切入点。然后再来看这些业务,你需要这些数据服务,它有什么价值?至于说这些数据服务所依赖的数据有没有,那是我们的实现方式,只要这个服务有价值,那我们就去想办法去拿到数据,如果没有能力,我们去建技术能力,去完成数据服务的提供。

 

所以数据中台最重要区别于传统数据平台,技术类平台的区别在于数据中台的思维是业务思维,他从业务问题出发,这也就是为什么业务部门对数据中台会这么欢迎。

 

我们的目标是哪怕我的数据只有50%的准确性,那么在我提高数据质量同时,我也希望这50%准确的数据也能为我产生业务价值。这句话是我们现在正在尝试的,也是用来做的。

 

在过去,业务部门跟技术部门同数据仓库的人提需求,数据仓库的人说不行,没有数据,数据质量不好,现在做不到,现在我们只有这些数据,然后看看在这些数据里面,你们能干点啥,这是原来的思路。

 

但是我们所讲的数据中台指的是业务需要什么,我们就用数据中台提供什么,哪怕说现在可能你连数据库都没有,但是只要业务需要这样的数据服务,我们手工的去录入构建这样的一个API也要让它实现,也要为业务产生价值。然后慢慢的我们再来完善数据服务,把它自动化。

 

所以这就是我们所讲的业务中台第一个最大的区别,一定是从业务价值出发,所以业务部门过去这么多年里,实际上对数据的需求和业务的需求从来没有发生过变化。从来没有说原来因为数据平台没有数据中台的概念,所以我提的需求少一点。业务对于数据的需求没有变化,但是它需要一种新的思维方式,一种新的技术平台,帮他去快速解决从数据到业务价值到业务服务的这个过程。所以这是第一点,数据中台是面向业务的,它不依赖于你现在数据中台的建设方法,不依赖于你现在有什么数据。

2度量不同

在过去,数据治理备受关注。然而当下,我们愈发意识到,所谓企业级大而全的数据治理或许是个伪命题。因为实际中,数据质量不可能与真实业务达到百分之百的一致。

在传统的数据体系里,数据系统、数据平台以及数据仓库,常常以数据质量作为衡量标准。例如,评判一个数据平台的价值,往往会看它存储了多少数据、开发了多少张数据报表。

但在数据中台层面,对数据中台价值的度量,则聚焦于其为业务提供了多少有价值的数据服务。即便这些数据服务背后的数据质量未必十分理想,但只要能够为业务创造价值,那么就可认定这是优质的数据服务

 

所以我们很快地拆解一下,从数据中台这四个字上来看,实际上它也能够快速的让我们大家理解什么是数据中台,首先是数据,数据让业务更智慧。数据中台提供数据分析,数据挖掘,将数据提供给前台,是以数据为核心,它介于前台与后台之间。

 

在某种角度上来讲,大家会问是不是也会有数据后台?

 

是的,在有的维度里面,我们把传统的数据湖作为数据后台,前台中也有数据,提供消费数据服务的就是数据前台。中台是为多个业务系统提供服务的,能够使一个系统变成一个数据服务的生态,它是不断演进的。

 

用一句话来概括数据中台,我们把数据中台理解为是企业的数据服务工厂。所谓的数据服务工厂在我看来,以后所有的企业中的本质就是加工处理数据,产生数字化世界里的产品,然后把它连接到物理世界,生产出来,销售出去。所以数据中台对企业来讲,它是数据服务的工厂。

 

过去那么多年,建设的系统是把业务数据化,现在我们很多的企业在后台系统建设好以后,在做的业务系统实际上是把数据业务化,而且有一点也是我们现在行业里面重点强调的,原来我们讲先有业务,后有数据,先有应用系统,后有数据系统,这个观点从今年开始要发生改变了,在业务系统还没有建立起来的时候,我们就要有数据思维,就要把数据集成到业务系统的架构里面去。

 

原来我们所讲的业务系统叫OLTP,即在线交易系统,然后数据类的系统叫OLAP,即在线分析性系统。

 

现在可以看到一个趋势,这个趋势就是OLTPOLAP在融合,也就是很多企业所讲的P流一体,即为批处理和实时流数据处理一体化。原来我们的OLTPOLAP是平行的关系,先要通过OLTP系统产生数据,然后ETL,然后抽取到OLAP里面,再把多个OLTP的系统抽在一起,之后在OLTPOLAP的系统里面产生洞见,变成数据可视化报表给业务部门去看,再去改变你的OLTP的做法,这里的OLTPOLAP是平行的关系。

 

我们现在提到得是OLAPOLAP的融合,每个业务系统都会需要都会趋于具有大数据处理能力,智慧能力的交易系统,之前把它叫做在线交易系统和在线分析系统,我们现在把它叫做在线分析型交易系统,它是有跨域的,有历史的集成数据分析交易系统。

 

这样的话,原来的数据百分之七八十在企业里的应用都是数据可视化,都是BI,都是data house报表,让人看,这叫人机接口,这个是人看完数据以后,然后再去提取,之后去做你的决策,改变你的行为,去看数据。

 

从今年开始,数据中台更多强调的是机器与机器的接口,就是我的数据分析出来的结果,不仅仅以报表可视化的形式让人看,而更多的是把这些API这样的一些数据服务直接地嵌入到交易系统里面产生影响,变成你的价格策略,变成你的推荐引擎,变成你的风险管控。

 

那么我们所讲数据中台,它不仅仅是一个技术平台,它还是一个体系。

 

数据中台会对应到一个企业里的一个部门一个组织,也要有数据战略的支撑,要有数据治理,数据中台上面生长一个数据服务,数据服务提供给我们业务系统,提供给我们业务中台,然后我们所接收到的数据消费者,就都生长在数据中台之上,数据中台是一个生态,是一个平台,是一个数据服务,是生产、加工、交易、度量、运营的平台,所以我们把数据中台实际上叫做一个体系。 

 

我们认为未来所有的企业都是一个数据工厂,看上去现在华为在生产的是手机、电脑、电信设备,但是只要他掌握了用户的数据,B端、C端,它知道用户喜欢什么,行为模式,消费模式,它完全可以在现有的用户数据基础上开发出产品,然后至于说这个产品可能是农业的,可能是汽车的,然后它快速的把用户产品的画像连接到供应链上,让行业里帮它生产出这样的产品。所以未来的企业都会是数据工厂,都是加工生产数据的工厂。

 

这样的一个数据工厂需要什么东西,需要什么样的结构,我们可以看到它需要有数据员,就是原材料的加工,然后把原材料取过来过磅,原材料经过质检检验,进入到原材料仓库,这就是我们所讲的数据湖。然后不同的数据产品它会有不同的生产线,这就是我们所讲的data plan数据流水线,然后数据流水线生产出数据服务,这个数据模型就放到数据集市里面,它就是半成品的数据的服务。

 

生产数据的厂房会有创新实验室,专门研发新产品,会有治理数据的管理办公室,去保证工厂整个运营的效率,也有控制中心,监控中心,保证整个data pipeline、数据处理的性能,安全性和稳定性,然后最顶上是你的数据服务商店,把这个数据产品,一个一个的数据服务,一个一个的智能模型,算法模型放到这个商店里面,供数据消费者去调用和使用,所以我们把这个理解为成广义的数据中台。

 

数据中台对企业的价值

1应用开发要快于数据开发的速度

原来我们在做一张报表,或者是在业务系统里面需要查询一个数据结果的时候,它的过程是比较麻烦的,而且它的测试往往也是比较复杂的,因为业务系统是有业务属性的,但是数据是跨业务的,是融合的。在OLAP领域中,很多这种情况,比如说我的企业,Java开发工程师很好找,做应用的人很好找,懂data,知道如何做数据建模,如何做算法的人相对来讲是比较少的。但是在我们应用开发过程当中,我们会发现有太多的数据需求,这种情况下应用开发的速度是快于数据开发的速度。

 

2加速从数据到价值的服务产生过程

现在数据中台就要解决这个问题,数据中台要把那些复用的数据模型,要把那些数据模型data派对中一些数据复用的能力,变成一个数据的能力平台,让那些做数据的人专注在做数据,把数据变成一个乐高积木,数据服务提供给应用开发,然后不同的应用开发项目组可以共同的去调用唯一的SARS数据服务,去保证它的数据质量和一致性,加速从数据到价值的服务产生过程,打造高响应力且更加智慧的业务。

 

数据中台解决的核心问题:

 

  • 解决应用开发快于数据开发的效率问题。
  • 解决数据开发与数据产生价值的协作问题。
  • 解决在很多企业,它的开发人员,技术人员没有数据能力的问题,这是它从技术层面的核心问题上来解决问题。

 

那是不是一定要做到保证数据质量百分之百,在没有问题的情况下,才能够去做数据系统,才能去做数据服务?

 

从这点上来讲,实际上数据和业务之间的速度一直是不一致的,我们的业务永远比这个系统的开发速度要快。就是我们物理世界里的业务一定比你的软件的开发要快。然后软件从软件本身到沉淀出数据,这又是一个滞后的过程,所以数据与你的企业的业务一定是不一致的。

 

数据的及时性,数据的一致性和数据的集成性问题,在某种角度上来讲,它是不可能百分之百彻底解决的,除非你的业务是静态的,因为你的业务呈现是在变化的,你的用户天天在变,我们的业务部门天天在思考创新,天天在希望找到新的客户的模式,这一切的创新落地下来就是数据,你的数据时时刻刻在发生变化,就是说,有的企业的业务报表系统上线以后,上线两个月很好,上线到第三个月的时候就发现报表不对了,而且他也不知道问题在哪里,然后他就需要去查看整个的过程,因为数据系统它有很强的不确定性,因为它的来源控制不了,它的来源是来自于它的业务系统,然后业务系统是变化的。

 

如何加快从你的业务到数据到你的数据产品之间的反馈的速度响应力,也是数据中台要解决的问题。它要把应用的价值,应用的速度,和你数据产生的速度中间的差异,时间的差异和有时候业务理解上的差异,通过数据中台去把它弥补起来。

 

数据中台应该具备的能力

1数据资产的规划和治理

你有什么数据资产要存什么数据,这个东西一定是要有统一的规划的,而且是要有系统经营管理的,所以每一个数据中台一定要有一个数据资产目录。

2数据资产的采集、获取和存储

这就是传统的数据湖数据仓库所做的事情。

3数据资产的共享和协作

数据仲裁很重要的一个功能是让企业的数据,企业拥有的数据,能够在内部开放,对你的生态开放、用户、员工开放、数据的消费者开放共享和协作。

4数据业务价值的探索和分析

数据中台一定要有一个能力,就是除了存储数据,然后管理数据资产之外,它一定要能够提供面向用户的这种价值探索工具。让用户,让不同层面的用户,比如说有数据分析人员,有业务分析人员,让他们能够在数据中台提供的工具里面去探索业务价值。

5数据服务的构建和治理

当然这个数据服务一定是要有治理的,不能出现数据服务重叠,然后浪费好多服务放在那里没有人用。

6数据服务的度量和运营

数据类项目本质上属于持续性项目,其运行过程呈现出不断迭代与深入分析的特征。此类项目绝非仅仅局限于数据的生成,也不能在完成数据报表的开发后就束之高阁、不再过问。实际上,所有数据项目都离不开持续的运营管理

 

运营的目的就是去看我产品数据服务是有谁在用,他们用的反馈如何,哪些报表,哪些数据产品没有人用,哪些产品它是可以合并的,使用这些产品的用户画像是什么,他们有什么特点,如何更好地为他们提供服务,所以数据中台一定要具备数据产品运营的能力。

 

刚才我们所讲的这六大功能,在这个数据服务工厂里面都能一一得到映射。

 

我们所讲的是一个广义的数据中台,然后同时我们现在在很多企业里面,我们也会看到,有的企业它不可能一上来就构建一个这么庞大的数据服务工厂,如果他要做数据平台,它先做什么?他现在可能连数据湖都没有,数据平台也没有,那怎么办?他还要不要做数据中台?我们所讲过的,只要你的前台业务系统有多个,而且你希望你的数据服务未来是可复用的,被多个业务系统所使用,提供平台性的能力的话,你就要构建数据中台。

 

那么你的数据中台可以简单到它就是只提供一个data API,哪怕它后面没有数据库,没有数据湖,没有数据平台,然后是人去维护一个excel表,然后把这个excel表的数据变成一个data API让业务部门去调用,我们觉得这就是数据中台的一个核心,那就是提供数据服务。所以我们所讲狭义的数据中台,那就是数据服务data API

 

data API和传统的数据报表很大的区别在于数据报表是单向的,是人机接口,人看报表。数据API是什么数据?API是可被监控的,是可被调度的,它是一个机器与机器之间的接口,是由你的电脑,你的应用去消费数据,不是由人去看数据。

 

所以这是很重要的,数据服务是我们所讲的狭义的数据中台最重要的部分。如果你要做一个最简单的数据中台,那么很简单,你只需要去把你的数据变成服务提供给你的多个业务用户,或者是你的多个业务系统,它就可以被称之为一个数据中台。

 

数据中台、数据仓库和数据湖传统的区别

 

数据中台距离业务更近,数据平台、数据湖是被动地响应业务需求,用户说我要什么,然后你有什么数据,然后我来给你提供什么数据服务,但是数据中台是业务需求驱动的业务服务平台。比如说,现在很多企业在做数据中台规划的时候,第一件事情不是去看他的数据,他有什么数据,那是第二件事情,第一件事情先看他需要什么样的数据服务,什么样的数据对他有价值。

疑问解答

数据平台、数据仓库和数据中台的关键关系?

数据仓库是分析报表及服务,数据平台和数据湖是提供数据集,我把一个数据集给到你,然后业务部门根据这个数据集拿到数据库的链接,自己去做开发。

 

数据中台是什么数据?

数据中台最核心的就是data API,它提供一个一个的可以复用的标准,这种数据服务给到业务系统。

构建数据中台和构建数据平台也有很大的区别,构建数据中台一定是业务价值出发,而且数据中台一定不是一个单体的产品,数据中台里面的组件是有的是可以产品化的,比如数据存储,比如说你的数据分析工具,比如说你的数据探索的工具,你是可以有产品去组合的。但是数据中台一定不是一个产品,每个企业的数据中台会依赖于他企业的业务模式,他企业的信息化水平,他企业的投资预算,依赖于很多他的个体化,个性化的因素,所以数据中台对于不同的企业来讲,它一定是一个定制化的系统。因为它跟业务息息相关。数据中台的架构一定不是一个固定的,它一定是眼镜式架构。

 

数据中台的建设要有战略耐心

投资方要有战略耐性。

建设方也要有耐心。

扫二维码与商务沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:小伙伴科技以外的任何非授权单位或个人,不得使用我公司案例作为工作成功展示!