文章目录
- 数据中台是什么?
-
- 数据中台 VS 数据仓库
- 数据中心平台的业务价值和技术价值
- 建设和架构数据中台
-
- 中台数据建设方法论
- 数据中台架构
- 数据收集联通:打破企业数据孤岛
-
- 数据采集和收集的方法和工具
- 数据交换
- 建设数据系统
-
- 数据系统规划
- 统一数字仓库层建设-标准化数据底座
-
- 相关概念
- 指标设计
- 维度表设计
- 事实表设计
什么是数据中台
大多数信息系统都是独立建立的,无法实现信息的连接,导致多个数据岛的形成。数据平台的作用是整合新旧信息,整合各岛信息,快速形成数据服务能力,支持企业的业务决策和精细运营。 业务平台是抽象业务流程的共性,形成通用业务服务能力,数据中泰是抽象数据能力的共性。
数据中台 VS 数据仓库
支持管理决策和业务分析的主要场景,为业务系统提供数据服务,目标是将数据能力渗透到各个业务环节,而不限于决策分析场景。
,数据平台最大限度地发挥企业数据仓库建设的投资价值,加快数据授权业务的速度,为业务提供更快、更多样化的数据服务。数据平台还可以将已建成的数据仓库作为数据源,连接现有的数据建设结果,避免重复建设。当然,新的离线或实时数据仓库也可以基于数据平台提供的能力,通过收集、处理和处理各种数据源来构建。
数据中心平台的业务价值和技术价值
1.以客户为中心,以洞察力推动企业稳步行动 数据中心大大提高了数据的应用能力,将大量数据转化为高质量的数据资产,为企业提供更深入的客户洞察力,为客户提供更个性化、更智能的产品和服务。
2.支持基于数据的大规模商业模式创新 依靠数据和算法,将从大量数据提炼的洞察力转化为行动,促进大规模商业创新。只有将数据转化为业务人员可以阅读和理解的内容,才能更好地支持商业模式的创新。
3.振兴全数据,建立坚实的壁垒,继续领先 数据平台的突出优势在于充分利用内外数据,打破数据岛的现状,降低数据服务使用门槛,繁荣数据服务生态,实现数据使用越多的闭环价值。
对于不同的数据应用场景,需要能够快速应对多数据处理需求 比如: 要保持原报表需求,仍需保持批量离线计算能力(Hadoop、Oracle RAC); 对于实时指标统计和实时推荐,需要实时流式计算能力(Storm、Spark Streaming、Flink); 大量人群的圈人需求和决策业务ad-hoc需要即席计算能力(Greenplum、Elasticsearch、Impala); 对于高并发业务场景(如用户肖像),需要在线计算能力(MySQL、Redis、Oracle)。
建设和架构数据中台
作为整个企业所需的数据服务提供商,数据中心平台将通过自身的平台能力和业务不断滋养数据(业务数据),形成高效可靠的数据资产系统和数据服务能力(数据资产和资产服务)。这样,当新的市场变化需要构建新的前台应用时,数据中心可以快速提供数据服务(服务业务),以快速响应企业的创新。
中台数据建设方法论
将数据中心驱动的业务发展定位为企业战略,全面规划。 通过宣传统一组织之间的数据认知,通过流程加快组织变革。 在中台建设的全过程中,始终贯穿数据的可见、可用、可操作三个核心标准,确保建设在正确的轨道上。 确保中台建设的全面性和可持续性,通过技术体系、数据体系、服务体系和运营体系建设。 控制中台建设关键节点的质量,通过理解现状、建立架构、建立资产、使用数据和操作五个关键行动。
数据中台架构
数据汇聚是数据中台数据接入的入口。所有数据来自于业务系统、日志、文件、网络等,这些数据分散在不同的网络环境和存储平台中,数据汇聚把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储,为后续的加工建模做准备。 一般有数据收集的方法、、、等;从汇聚的时效性来分,有和。
数据开发是一整套数据加工以及加工过程管控的工具,有经验的数据开发、算法建模人员利用数据加工模块提供的功能,可以,提供给业务使用。
通过数据收集和数据开发模块,中间平台具有传统数据仓库(以下简称数字仓库)平台的基本能力。在大数据时代,必须考虑数据的一致性和可重用性。垂直烟囱数据和数据服务的建设模式注定不会长期存在。建议按照贴源数据、统一数字仓库、标签数据和应用数据的标准统一建设数据。
数据资产管理包括管理和显示数据资产目录、元数据、数据质量、数据血缘和数据生命周期,以更直观的方式显示企业的数据资产,提高企业的数据意识。
数据服务系统是将数据转化为服务能力,通过数据服务让数据参与业务,激活整个数据中心,
通过前面的数据汇聚、数据开发、数据体系、数据资产管理、数据服务体系,已经完成了整个数据中台的搭建和建设,也已经在业务中发挥一定的价值。操作系统和安全管理是数据平台健康、可持续运行的基础,如果没有它们,数据平台可能像一般项目,将建立平台,构建部分数据,尝试一两个应用场景,不能正常持续运行,不能继续发挥数据的应用价值。这完全达不到建设数据中心的目标。
数据收集联通:打破企业数据孤岛
要构建企业级数据中台,首先要让企业内各业务系统的数据互联,。
数据采集和收集的方法和工具
从空间维度来看,用户行为可分为线上行为和线下行为。
在线行为的主要载体可分为传统互联网和移动互联网。在技术上,数据采集主要包括客户端SDK埋点和服务端SDK埋点等。其中客户端。SDK埋点主要是将埋点功能模块嵌入终端设备中,通过模块提供的能力收集客户端的用户行为,并上传回行为收集服务端。 客户端埋点有三种常见方式:全埋点、可视化埋点和代码埋点。 :记录和保存终端设备上用户的所有操作和内容,只需嵌入即可SDK收集所有行为的目的都可以通过做一些初始配置来实现。这通常被称为无埋点等。 :将终端设备上用户的一部分操作,通过服务端配置的方式有选择性地记录并保存。 :根据需要定制每个收集内容,需要升级相应的终端模块。
除了上述客户端埋点外,还有服务端埋点通过在系统服务器端部署相应的数据采集模块,将这部分数据作为行为数据进行处理和分析。服务端埋点的常见形式有HTTP服务器中的access_log,即所有的Web服务日志数据。
线下行为数据主要通过一些硬件收集,如常见数据Wi-Fi探针、摄像头、传感器等常见的主要有Wi-Fi信号采集、信令数据采集、图像视频采集以及传感器探测等。
网络爬虫又称为网页蜘蛛,是一种按照既定规则自动抓取互联网信息的程序或者脚本,常用来做网站的自动化测试和行为模拟。网络爬虫有多种实现方式,目前有较多的开源框架可以使用,如Apache Nutch 2、WebMagic、Scrapy、PHPCrawl等。
数据汇聚不同于数据采集,数据采集有一定的数据生产属性,将终端的用户行为信息通过特定的方法记录后,通过中间系统的流转写入目标存储中。 规则、完整,能够通过二维逻辑来表现的数据,严格遵循数据格式与长度规范,。 数据规则、完整,同样严格遵循数据格式与长度规范,但无法通过二维关系来表现,。 数据结构不规则或不完整,不方便用二维逻辑表来表现,需要经过复杂的逻辑处理才能提取其中的信息内容,。
主要用于大批量数据的周期性迁移,对时效性要求不高,一般采用分布式批量数据同步的方式,通过连接读取数据,读取数据过程中可以有全量、增量的方式,经过统一处理后写入到目标存储。 主要面向低时延的数据应用场景,一般通过增量日志或通知消息的方式实现,如通过读取数据库的操作日志(RedoLog、BinLog)来实现相应的实时处理,业界常见的Canal、MaxWell、StreamSets、NiFi等框架和组件都有较多的实际应用。
在数据建设过程中有。另一方面,ETL模式在清洗过程中只提取有价值的信息进行存储,而是否有价值是基于当前对数据的认知来判断的,由于数据价值会随着我们对数据的认知以及数据智能相关技术的发展而不断被挖掘,因此
在数据能力建设过程中,很多企业结合自身的场景和最佳实践也开源了一些优秀的
数据交换
从
数据体系建设
数据体系规划
中台数据体系应具备以下特征:
统一数仓层建设——标准化的数据底座
建模方法有范式建模、维度建模、实体建模等。
相关概念
统一数仓层建设过程以维度建模为理论基础,构建总线矩阵,划分业务板块,定义数据域、业务过程、维度、原子指标、修饰类型、修饰词、时间周期、派生指标,进而确定维度表、事实表的模型设计。统一数仓层建设过程如图所示: **原子指标:**原子指标是针对某一业务事件行为的度量,是一种不可拆分的指标,具有明确业务含义,比如支付金额。原子指标有确定的字段名称、数据类型、算法说明、所属数据域和业务过程。
指标设计
指标就是在企业业务运转过程中产生的度量事实,
维度表设计
维度表包含了事实表所记录的业务过程度量的上下文和环境,它们除了记录5W等信息外,通常还包含了很多描述属性字段。
事实表设计
事实表是统一数仓层建设的主要产出物,统一数仓层绝大部分表都是事实表。一般来说事实表由两部分组成:
在Kimball的维度建模理论中主要定义了