个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模
岩酷网络科技 时间:2025-06-06 22:28:49
前几日 ,2022年个推TechDay"治数训练营"系列直播课排名第一期圆满举办。个推资深大数据结果研发工程师为我相信说深入浅出地作介绍了数据结果仓库的前世今生被作为数据结果建模的常用常见方法。
本文对"治数训练营"排名第一期《数据结果仓库与维度建模》的干货其它内容并对了总结 ,被作为也挑选了直播相互精彩提问在做Q&A梳理 ,带我相信说一起去回顾首期课程。
01数据结果仓库快速入门
数据结果仓库(Data Warehouse) ,简称"数仓" ,从大数据结果从业者绕不开的有个概念。"数据结果仓库之父"Bill Inmon最早研究相关系基本确定提出提出数仓的概念 ,认为 "数据结果仓库是有个面向主题的、集成的、相对来言稳定的、反映其历史发生变化的数据结果集合 ,用于全部支持管理决策"。
被作为 ,大数据结果架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中 ,也对数仓并对了定义:"数据结果仓库是有个将源系统中数据结果抽取、清洗、规格化 ,之前提交到维度数据结果存储的系统中 ,为决策的制定提供完整查询和数据分析多种功能 的支撑和提前完成"。
Bill Inmon对数仓的定义更强调整体表现特性 ,Ralph Kimball另一从并对流程角度看来定义数仓。也好哪个你定义 ,我相信说 以及能从中经常看到企业自身规划建设数据结果仓库的意义重大。企业自身并对规划建设数仓 ,被作为以及能将分散在各业务系统中的数据结果并对集中化管理 ,打破数据结果孤岛;以及能为后续高效数据分析和应用数据结果 ,并从大数据结果赋能业务整体表现发展奠定做基础。
02数仓规划建设与数据结果建模
如此 只会 ,企业自身怎样才能 才能 规划建设数据结果仓库?怎样才能 才能 规划建设有个贴合业务又满足需求的、高效、稳定、好采用先进过数据结果仓库?那另一以及能重要决定数据结果模型的选择放弃和数据结果建模的也须要针对用户解决。
"数据结果建模"是指对实体被作为实体和实体相互的相互并对数据结果化描述和抽象的经历过程。"数据结果模型" ,另一指领导组织和存储数据结果的常见方法。
当前主流的数据结果建模常见方法有两种 ,共计是范式建模和维度建模:
范式建模
范式建模由Bill Inmon研究相关系基本确定提出提出 ,指站在高处 企业自身角度看面向主题的抽象 ,我相信说 一般来讲不 并对E-R实体相互模型将事物抽象为"实体""属性""相互" ,来认为 事物和事件关系针对用户解决。范式建模并非并对某个基本确定业务流程中实体对象相互的抽象 ,它以及能建模人员全面地、整体表现地以及能作介绍企业自身的业务和数据结果 ,被作为并对周期长 ,对建模人员的综合能力研究相关系基本确定提出提出也相对来言高。
维度建模
维度建模由Ralph Kimball研究相关系基本确定提出提出 ,主张从数据分析决策的又满足需求出发构建模型 ,为数据分析又满足需求体验服务。如此 它重点关注我 怎样才能 才能 并对户更快速地提前完成数据结果数据分析 ,被作为继续保持较很好大规模复杂查询的响应性能。比起来来范式建模 ,维度建模规划建设周期短 ,全部支持敏捷迭代 ,一般来讲不 只会对数仓架构在做多复杂的整体表现采用先进。
在构建数仓时 ,我相信说 要很据基本确定的数据结果数据分析场景和业务直接处理系统中来选择放弃研究相关的数据结果建模常见方法。也须要 ,就OLTP系统中(On-line Transaction Processing:联机事务直接处理)来言 ,再就 在于在于其再就 是面向随机读写的数据结果操作需要常见方法 ,关注我 事务的直接处理 ,如此 我相信说 其他推荐并对OLTP系统中及中国传统数据结果库的企业自身并对范式建模的常见方法来整体表现采用先进数据结果模型 ,以也须要针对用户解决在事务直接处理中有数据结果冗余和一 致性也须要针对用户解决。而OLAP系统中(On-line Analytical Processing :联机数据分析直接处理)面向批量读写数据结果的操作需要常见方法 ,关注我 我 事务直接处理一致性 ,再就 是关注我 数据结果的整合被作为大数据结果查询和直接处理中有性能 ,如此 一般来讲不 采用先进维度建模的常见方法。
基本确定怎样才能 才能 并对范式建模和维度建模呢?我相信说 相结合案例共计角度看看。
03范式建模常见方法及实例剖析
我们要角度看看范式建模的也都经历过程。
在并对范式建模时 ,我相信说 一般来讲要遵从所不所不同规范研究相关系基本确定提出提出整体表现采用先进出合理的模型 ,另一个所不所不同规范研究相关系基本确定提出提出那另一"范式"。当前整体表现行业中存另一范式、二范式、三范式等所不所不同模型规划建设规范。越高的范式能给的数据结果库冗余越小 ,另一个在数据结果计算综合综合能力会更复杂。企业自身一般来讲不 采用先进三范式建模 ,在基本保证灵活度被作为数据结果计算速度快 的被作为 ,降低数据结果直接处理的复杂度。
范式建模的经历过程以及能被拆解为下列四步:
1. 抽象出主体
2. 梳理主体相互的相互
3. 梳理主体的属性
4. 画出E-R相互图
也须要 ,我相信说 要并对范式建模的需要常见方法 整体表现采用先进某课程系统中中的数据结果模型。
系统中中再就 常用管理某到中学生中学生、到中学生和课程等研究相关系数据结果 ,涉及课程选修、考试最终成绩、中学生授课、到中学生班级等综合综合能力。既然们我们要要梳理出实体 ,为中学生、课程、到中学生、班级;综合综合能力梳理出实体相互的相互 ,诸如中学生讲授课程、到中学生选修课程、到中学生隶属班级等;之前要罗列出各实体和相互的属性 ,也须要"到中学生"有个实体的属性有姓名、性别、年龄等 ,"到中学生选修课程"有个相互的属性有选修时间时、总课时等;排名第一步 ,另一画出E-R图 ,用矩形认为 "实体" ,用菱形认为 "相互" ,用椭圆形认为 "属性" ,以可视化的需要常见方法 清晰展示出主体和主体相互的相互。
04维度建模常见方法及实例剖析
比起来来范式建模 ,维度建模稍为复杂 ,诸如事实表和维度表两块其它内容。
事实表
我们要看事实表。事实表分三种 ,诸如事务性事实表、周期性快照事实表、累计快照事实表。
事务性事实表一般来讲不 用好好几条记录认为 某个时间时点发生过事是件或行为定性。也须要电商业务场景中有订单支付业务 ,一般来讲不 就采用先进事务性事实表来领导组织和存储数据结果。
周期性快照事实表另好好几条记录描述的另一有个实体和一 一段时间时内的完美状态 或现状 ,也须要某顾客每月的积分余额就均属好好几条均属的周期性快照事实表记录。
累计快照事实表另好好几条记录另一对某业务流程中发生过的多个事件的累计记录 ,一般来讲不 为诸如又满足需求某个流程节点运转效率的统计又满足需求。
我相信说 以有个事务性事实表的整体表现采用先进经历过程为例来以及能作介绍事实表的整体表现采用先进常见方法:
1. 选择放弃与数据结果数据分析又满足需求研究相关系的业务经历过程。"业务经历过程"是指在业务流程中有可拆分的行为定性事件。也须要 ,电商业务场景下 ,购物的业务流程中就诸如加购、下单、支付、商家发货、更多用户基本确定收货等业务经历过程。既然们要数据分析销售额 ,那"支付"那另一必选的业务经历过程。
2. 声明粒度。我相信说 要尽量选择放弃最细粒度 ,精基本确定义事实表和一 个行所认为 的业务含义 ,以基本保证事实表有最比较大灵活性。也须要 ,更多用户如此 只但在有个订单里都选择购买多个商品 ,那一个购没买商品那另一有个子订单 ,我相信说 一般来讲不 选择放弃将子订单被作为声明粒度。
3. 基本确定维度。维度是指业务经历经历过程处的人文环境 各类信息 ,也须要更多用户和一 个时间时购没买某个店铺的某个商品 ,那店铺所属整体表现行业、商品所在类目等均以及能被认为 是维度。
4. 基本确定事实 ,即基本确定业务经历过程的度量指标。也须要"支付"有个业务经历过程的度量指标为支付金额 ,更复杂的电商业务场景下 ,如此 只会还诸如分摊邮费、折扣金额等指标。
以及能反映出另一 ,一个数据结果仓库都涵盖有个以及能多个事实表 ,事实表是对数据分析主题的度量 ,它涵盖了与各维度表研究相关系系针对用户解决的外键 ,并并对Join需要常见方法 与维度表关系针对用户解决。
维度表
维度表另一更多用户数据分析数据结果的窗口 ,记录了事实表中研究相关系事务、事件的属性及属性含义。
维度表的整体表现采用先进经历过程 ,再就 分为下列四步:
1. 选择放弃维度。也须要要生成有个商品维度表 ,既然们选择放弃的维度那另一商品维度。
2. 基本确定主维表。也须要要建商品维度表 ,那主维表那另一来自东方于业务系统中的商品表。
3. 基本确定研究相关系维度表。主维表基本确定之前 ,也须要的研究相关系维度表那另一随之基本确定。也须要商品维度表的研究相关系维度表有商品类目表、所属本土品牌 表、商品所属整体表现行业表等。
4. 基本确定维度属性。另一个属性一般来讲不 来自东方于主维表和研究相关系维表。我相信说 将主维表和研究相关系维表的属性集成 ,并对所不同属性合并(也须要 ,商品类目表和所属本土品牌 表中如此 只会以及能大幅度度属整体表现行业属性 ,既然们就以及能对所属整体表现行业有个属性并对合并) ,之前将到到最后赢得的属性放到要生成的维度表里。
被作为 ,本期个推TechDay"治数训练营"还对范式建模与维度建模的也都原则、建模中有常见也须要针对用户解决(也须要范式建模中有传递依赖也须要针对用户解决、维度建模中有缓慢发生变化维也须要针对用户解决等)、数仓分层等并对了基本确定阐述 ,欢迎关注我 个推核心技术实践公众号 ,Get直播回放小视频!
其他推荐书目
当有个以及仅公司在战略上重要决定做云计算从大数据结果体验服务后 ,怎样才能 才能 将该战略并对逐步分解 ,到到最后落地并对?这中有涉及核心技术构建、运营管理、领导组织综合能力规划建设等一系列领导组织形式 ,有哪些方面常见方法论和实践可供借鉴?我相信本书能给您能给灵感!
关注我 个推核心技术实践微信公众号 ,后台回复"数仓" ,获取本期直播课件~
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。