网站首页 站内搜索

搜索结果

查询Tags标签: Hudi,共有 24条记录
  • 硬核!Apache Hudi Schema演变深度分析与应用

    1.场景需求在医疗场景下,涉及到的业务库有几十个,可能有上万张表要做实时入湖,其中还有某些库的表结构修改操作是通过业务人员在网页手工实现,自由度较高,导致整体上存在非常多的新增列,删除列,改列名的情况。由于Apache Hudi 0.9.0 版本到 0.11.0 版本之间只支持有…

    2022/11/21 1:23:58 人评论 次浏览
  • Presto、Spark SQL、Hive的比较

    Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的…

    2022/9/14 2:16:16 人评论 次浏览
  • Apache Hudi 源码分析 - JavaClient

    JavaClient Insert,@Overridepublic List<WriteStatus> insert(List<HoodieRecord<T>> records, String instantTime) {HoodieTable<T, List<HoodieRecord<T>>, List<HoodieKey>, List<WriteStatus>> table =initTable(…

    2022/5/31 1:24:17 人评论 次浏览
  • Hudi-集成Flink(Flink操作hudi表)

    一、安装部署Flink 1.12Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。1.准备tar包 flink-1.13.1-bin-scala_2.12.tgz 2.解压tar -zxvf flink-1.13.1-bin…

    2022/3/8 23:15:51 人评论 次浏览
  • Hudi-通过Spark分析滴滴出行数据

    工具类package com.zhen.hudi.didiimport org.apache.spark.sql.SparkSession/*** @Author FengZhen* @Date 3/1/22 9:34 PM * @Description SparkSql操作数据(加载读取和保存写入)时工具类* 比如获取SparkSession实例对象等*/ object SparkUtils {/*** 构建…

    2022/3/2 23:17:09 人评论 次浏览
  • Hudi-表的存储类型及比较

    总述 Hudi提供两类型表:写时复制(Copy on Write, COW)表和读时合并(Merge On Read, MOR)表。 对于Copy-On-Write Table,用户的update会重写数据所在的文件,所以是一个写放大很高,但是读放大为0,适合写少读多的场景。 对于Merge-On-Read Table,整体的结构有点像LSM-T…

    2022/2/26 23:26:11 人评论 次浏览
  • Spark SQL 操作Apache Hudi

    1. 添加jar包到spark的jar目录下 https://repo1.maven.org/maven2/org/apache/hudi/hudi-spark3.1.2-bundle_2.12/0.10.1/hudi-spark3.1.2-bundle_2.12-0.10.1.jar https://repo1.maven.org/maven2/org/apache/spark/spark-avro_2.12/3.1.2/spark-avro_2.12-3.1.2.jar2. 重…

    2022/2/23 19:22:09 人评论 次浏览
  • HUDI preCombinedField 总结(二)-源码分析

    前言 在上一篇博客HUDI preCombinedField 总结中已经对preCombinedField进行总结过一次了,由于当时对源码理解还不够深入,导致分析的不全面,现在对源码有了进一步的理解,所以再进行总结补充一下。 历史比较值 上面总结中:DF:无论新记录的ts值是否大于历史记录的ts值…

    2022/2/22 17:25:55 人评论 次浏览
  • Hudi编译(0.10.1版本)

    一、编译 1.下载源码 https://www.apache.org/dyn/closer.lua/hudi/0.10.1/hudi-0.10.1.src.tgz 2.编译 mvn clean install -DskipTests -DskipITs -Dscala-2.11 -Dspark3 报以下错误[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.…

    2022/2/16 23:45:14 人评论 次浏览
  • Hudi初始

    一、Hudi是什么 Hudi(Hadoop Upserts anD Incrementals):用于管理分布式文件系统DFS上大型分析数据集存储。 Hudi是一种针对分析型业务的、扫描优化的数据存储抽象,它能够使DFS数据集在分钟级的时延内支持变更,也支持下游系统对这个数据集的增量处理。二、Hudi功能 H…

    2022/2/16 23:45:06 人评论 次浏览
  • Apache RocketMQ + Hudi 快速构建 Lakehouse

    本文目录背景知识 大数据时代的构架演进 RocketMQ Connector&Stream Apache Hudi 构建Lakehouse实操本文标题包含三个关键词:Lakehouse、RocketMQ、Hudi。我们先从整体Lakehouse架构入手,随后逐步分析架构产生的原因、架构组件特点以及构建Lakehouse架构的实操部分。…

    2022/2/16 6:12:15 人评论 次浏览
  • 基于 Ubuntu 玩转 Hudi Docker Demo (3)—— Spark写入和查询

    简介 上一篇文章《基于 Ubuntu 玩转 Hudi Docker Demo (2)—— 测试数据写入 Kafka》介绍了如何将测试数据写入到 kafka 集群。 本文介绍如何使用 Spark 消费 Kafka 数据,并将数据写入 HDFS。 其中 Hudi 以 Jar 包的方式引入到 Spark。 Hudi 表和查询的类型 表类型支持…

    2022/2/12 7:15:22 人评论 次浏览
  • 基于Apache Hudi + Flink的亿级数据入湖实践

    本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望1. 实时数据落地需求演进 实时平台上线后,主要需求是开发实时报表,即抽取各…

    2022/1/9 6:33:33 人评论 次浏览
  • 基于Apache Hudi + Flink的亿级数据入湖实践

    本次分享分为5个部分介绍Apache Hudi的应用与实践实时数据落地需求演进 基于Spark+Hudi的实时数据落地应用实践 基于Flink自定义实时数据落地实践 基于Flink+Hudi的应用实践 后续应用规划及展望1. 实时数据落地需求演进 实时平台上线后,主要需求是开发实时报表,即抽取各…

    2022/1/9 6:33:33 人评论 次浏览
  • Hudi,Hive Sync,实现湖仓一体操作

    一、将Hudi数据同步到Hive 1)需要将编译好的hudi-hadoop-mr-bundle-0.10.0.jar,放到对应的环境中,../CDH/jars 和 ../CDH/lib/hive/lib下面,具体步骤可以参考Flink1.3.1+Hudi0.10初探cd /app/hudi-0.10.0/packaging/hudi-hadoop-mr-bundle/targetcp hudi-hadoop-mr-bu…

    2021/12/26 6:10:19 人评论 次浏览
共24记录«上一页12下一页»
扫一扫关注最新编程教程