网站首页 站内搜索

搜索结果

查询Tags标签: 数仓,共有 49条记录
  • ClickHouse(21)ClickHouse集成Kafka表引擎详细解析

    目录Kafka表集成引擎配置Kerberos 支持虚拟列资料分享 参考文章Kafka表集成引擎 此引擎与Apache Kafka结合使用。 Kafka 特性:发布或者订阅数据流。 容错存储机制。 处理流数据。老版Kafka集成表引擎参数格式: Kafka(kafka_broker_list, kafka_topic_list, kafka_group_…

    2024/1/13 11:02:54 人评论 次浏览
  • ClickHouse(20)ClickHouse集成PostgreSQL表引擎详细解析

    目录PostgreSQL 创建一张表 实施细节 用法示例资料分享 参考文章PostgreSQL PostgreSQL 引擎允许 ClickHouse 对存储在远程 PostgreSQL 服务器上的数据执行 SELECT 和 INSERT 查询. 创建一张表 CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] (name1…

    2024/1/3 11:02:39 人评论 次浏览
  • ClickHouse(19)ClickHouse集成Hive表引擎详细解析

    目录Hive集成表引擎 创建表使用示例 如何使用HDFS文件系统的本地缓存查询 ORC 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表查询 Parquest 输入格式的Hive 表 在 Hive 中建表 在 ClickHouse 中建表查询文本输入格式的Hive表 在Hive 中建表 在 ClickHouse 中建表…

    2023/12/23 18:03:24 人评论 次浏览
  • ClickHouse(16)ClickHouse日志引擎Log详细解析

    日志引擎系列 这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。 这系列的引擎有:StripeLog Log TinyLog共同属性 引擎:数据存储在磁盘上。写入时将数据追加在文件末尾。不支持突变操作,也就是更新。不支持索引。 这意味着 `SELECT` 在范围查询时…

    2023/12/4 18:32:58 人评论 次浏览
  • 数据库发展史2--数据仓库

    ​ 回顾数据仓库的发展历程,大致可以将其分为几个阶段:萌芽探索到全企业集成时代、企业数据集成时代、混乱时代--"数据仓库之父"间的论战、理论模型确认时代以及数据仓库产品百家争鸣时代。 数据仓库理论发展历程 上世纪70年代,IBM的E.F.Codd等人提出关系型数…

    2022/9/17 2:18:24 人评论 次浏览
  • CloudCanal x StarRocks 在医疗大健康实时数仓领域的落地与实践

    - # 简述 本案例为国内某大健康领域头部公司真实案例(因用户保密要求,暂不透露用户相关信息)。希望文章内容对各位读者使用 CloudCanal 构建实时数仓带来一些帮助。# 业务背景大健康背景下,用户对报表和数据大屏的实时性能要求越来越高。以核酸检测为例,检测结果需要实…

    2022/8/30 23:25:01 人评论 次浏览
  • 1. Flink实时数仓

    1. Flink实时数仓 1.1 离线数仓1.2 离线数仓迁移实时数仓1.3 实时数仓1.4 实时ETL1.5 实时指标统计1.6 实时标签导入1.7 端到端的实时处理1.8 端到端的血缘关系1.9 离线实时一体化

    2022/8/11 23:25:21 人评论 次浏览
  • 数仓工程师面试知识点汇总

    1.知识体系2.HIVE相关 四种排序的区别 提交一个hive任务后的后台执行流程(sql转化为mr的过程) 数据倾斜的成因及优化方法 概念模型、逻辑模型、物理模型是什么3.基础概念相关 数仓概念、作用 数仓分层 数据仓库和数据库的区别 数仓模型设计思路(范式建模和维度建模,星…

    2022/8/9 6:23:55 人评论 次浏览
  • 一键同步mysql到数仓(airflow调度)

    经常会接到产品的需求:同步***表到hive,做分析。(做多了感觉很烦,就写一个工具)一:背景、功能、流程介绍 1.背景:1.数仓使用hive存储,datax导数据、airflow调度 2.虽然数据产品同学对datax进行了封装,可以点点点完成mysql表的同步,但是过程太复杂了 还…

    2022/7/10 2:20:03 人评论 次浏览
  • 数仓-拉链表

    一,什么是拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 二,用在什么地方 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 表中的部分…

    2022/6/23 23:24:27 人评论 次浏览
  • 数仓选型必列入考虑的OLAP列式数据库ClickHouse(中)

    实战 案例使用 背景 ELK作为老一代日志分析技术栈非常成熟,可以说是最为流行的大数据日志和搜索解决方案;主要设计组件及架构如下:而新一代日志监控选型如ClickHouse、StarRocks特别是近年来对ELK地位发起较大的挑战,不乏有许多的大公司如携程,快手已开始把自己的日志…

    2022/5/22 10:51:08 人评论 次浏览
  • |NO.Z.00077|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V03|---------------------------------------|实时数仓.v03

    [BigDataHadoop:Hadoop&实时数仓.V03] [BigDataHadoop.电商行业实时数仓项目][|章节五|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V3|]一、运行OrderStatistics### --- 复制类的绝对路径~~~ …

    2022/4/16 17:12:38 人评论 次浏览
  • |NO.Z.00075|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V01|---------------------------------------|实时数仓.v01

    [BigDataHadoop:Hadoop&实时数仓.V01] [BigDataHadoop.电商行业实时数仓项目][|章节五|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V1|]一、在真实服务器集群环境上运行:在pom.xml下写入打包插件…

    2022/4/16 17:12:34 人评论 次浏览
  • |NO.Z.00076|——————————|^^ 编程 ^^|——|Hadoop&实时数仓.V02|---------------------------------------|实时数仓.v02

    [BigDataHadoop:Hadoop&实时数仓.V02] [BigDataHadoop.电商行业实时数仓项目][|章节四|Hadoop|实时数仓|实时数仓:实时数仓$在Hadoop集群环境运行实时数仓程序.V2|]一、启动集群环境相关服务### --- 启动zookeeper/kafka服务…

    2022/4/16 17:12:33 人评论 次浏览
  • 【大数据课程】高途课程实践-Day02:利用Hive SQL编写离线数仓实现可视化展示

    〇、概述 1、实现内容 使用Hive SQL编程,构造分层离线数仓 并可以通过Quick Bi进行展示 2、过程 (1)数据接⼊到ODS层 (2)进⾏ODS到DWD层数据开发 (3)进⾏ODS到DIM层数据开发 a.创建 【电商_商家维度表_⽇】表 b.创建【电商_商品维度表_⽇】表 c.创建【电商_⽤⼾维度…

    2022/2/28 2:21:26 人评论 次浏览
共49记录«上一页1234下一页»
扫一扫关注最新编程教程