电商项目_分析,概述,规范,介绍。

2022/7/5 23:23:28

本文主要是介绍电商项目_分析,概述,规范,介绍。,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

电商数字化转型之数据仓库建设(基于hive)

第一章 数仓分析

第一节 数仓分层概述

根据实际生产情况,建议将数据仓库分为三层,自下而上为:
数据引入层(ODS,Operation Data Store)
数据公共层(CDM,Common Data Model)
数据应用层(ADS,Application Data Service)
  • 数据引入层(ODS,Operation Data Store):将原始数据几乎无处理的存放在数据仓库系统,结构上与源系统基本保持一致,是数据仓库的数据准备区。

  • 数据公共层(CDM,Common Data Model,又称通用数据模型层),包含DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。

    • 公共维度层(DIM):基于维度建模理念思想,建立整个企业的一致性维度。降低数据计算口径和算法不统一风险。公共维度层的表通常也被称为逻辑维度表,维度和维度逻辑表通常一一对应。

    • 明细粒度事实层(DWD):以业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表。可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,也即宽表化处理。

      明细粒度事实层的表通常也被称为逻辑事实表。

    • 公共汇总粒度事实层(DWS):以分析的主题对象作为建模驱动,基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表,以宽表化手段物理化模型。构建命名规范、口径一致的统计指标,为上层提供公共指标,建立汇总宽表、明细事实表。

      公共汇总粒度事实层的表通常也被称为汇总逻辑表,用于存放派生指标数据。

  • 数据应用层(ADS,Application Data Service):存放数据产品个性化的统计指标数据。根据CDM与ODS层加工生成

第二节 数仓开发规范

1 数据库命名
    命名规则:数仓对应分层_{业务线|业务项目} 
    命名示例:ods_nshop/dwd_nshop/dws_nshop/dim_nshop/ads_nshop/

2 数仓各层对应数据库
	ods/sda层 -> sda/ods_{业务线|业务项目}(原始数据)
	dw层 -> dwd_{业务线|业务项目} (主题) + dws_{业务线|业务项目}(基于主题宽表汇总)
	dim层 -> dim_维度 (维表库)
	ads层 -> ads_{业务线|业务项目} (应用统计指标等)
	middle层 -> mid_{业务线|业务项目}(中间库)
	临时数据 -> temp_{业务线|业务项目}(临时库)

3 表命名
    (3-1) 数据库表命名规则
          * 原始数据层:
          	命名规则:ods_{业务线|业务项目}_{数据来源类型}_{业务}
            		ods_{业务线|业务项目}_{数据来源类型}_{业务}_{时间粒度}_delta (delta代表增量,主要用于数据同步方向产生的原始数据表)
            命名示例:
          			ods_nshop_01_useractlog XX用户日志原始数据表
          			ods_nshop_02_user XX用户表(全量)
          			ods_nshop_02_user_delta XX用户表(增量)
          			ods_nshop_02_user_hh_delta XX用户表(小时级增量 dd天)
          * 主题/事实数据层:
          	命名规则:dwd_{业务线|业务项目}_{主题域}_{子业务} 
          	命名示例:
          			dwd_nshop_user_logproview XX用户产品浏览日志事实表
          			dwd_nshop_user_comment XX用户关注事实表
          * 主题/事实汇总层:
          	命名规则:dws_{业务线|业务项目}_{主题域}_{汇总相关粒度}_{汇总时间周期}
          	命名示例:
          			dws_nshop_user_order_nd XX用户订单汇总N天统计表
          			dws_nshop_user_cmtpro_nd XX用户产品关注汇总N天统计表
          			
          * 维表层:
          	命名规则:dim_{业务线|业务项目|pub公共}_{维度}
          	命名示例:
          			dim_pub_date 时间维表
          			dim_pub_area 地区维表
          			dim_pub_category 商品分类
          			
          * 集市层:
          	命名规则:ads_{业务线|业务项目}_{统计业务}_{报表form|热门排序topN}
          	命名示例:
          			ads_nshop_order_form    订单统计表
          			ads_nshop_orderpay_form 订单支付统计
          
          
            
          注释:如果业务名称较长可以简写 如 ods_nshop_01_useractlog

    	  数据来源代码(ods层)
          01 -> hdfs数据  ods_nshop.ods_01_action_log 行为日志表
          02 -> mysql数据 ods_nshop.ods_02_user 用户表
          03 -> redis数据
          04 -> mongodb数据
          05 -> tidb数据
 

第三节 数据来源介绍

  • 业务数据
业务数据往往产生于事务型过程处理,所以一般存储在关系型数据库中,如mysql、oracle
业务数据源:
	用户基本信息、商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等
  • 埋点日志
埋点日志相对业务数据是用于数据分析、挖掘需求,一般以日志形式存储于日志文件中,随后通过采集落地分布式存储介质中如hdfs、hbase
用户行为日志:
	用户浏览、用户点评、用户关注、用户搜索、用户投诉、用户咨询
  • 外部数据
当前一般公司都会通过线上广告来进行获客,与三方公司合作更多的提取相关数据来进行深度刻画用户及用户群体,另外爬取公共公开数据也是分析运营的常用方式。
外部数据源:
	广告投放数据、爬虫数据、三方业务接口数据、微信小程序

数据仓库项目建设结构图:



这篇关于电商项目_分析,概述,规范,介绍。的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程