网站首页 站内搜索

搜索结果

查询Tags标签: hive,共有 381条记录
  • Hive常见时间日期函数的使用与问题整理

    这里整理一下Hive常见的时间函数和日期函数和用法,作为平时数据处理过程的一个检索和记录。 平时在数据处理过程中,如果不经常使用时间函数,一时间遇到一些时间上的处理,难免会想不起来。 hive本身提供的时间函数已经很丰富了,基本上能满足我们所有的需求,一些特殊需…

    2023/6/15 1:24:00 人评论 次浏览
  • Hadoop生态系统(数据仓库Hive的安装)

    一、数据仓库数据仓库是一个面向主题的、集成的、随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理。主要有以下3个特点:数据仓库是面向主题的:数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的…

    2022/10/19 5:24:52 人评论 次浏览
  • flink-cdc同步mysql数据到hive

    本文首发于我的个人博客网站 等待下一个秋-Flink什么是CDC? CDC是(Change Data Capture 变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据 或 数据表的插入INSERT、更新UPDATE、删除DELETE等),将这些变更按发生的顺序完整记录下来,写入到消息中间…

    2022/9/17 2:17:16 人评论 次浏览
  • Presto、Spark SQL、Hive的比较

    Presto、Spark SQL、Hive的比较 1.Presto Presto只有计算分析能力但可以连接多种数据源,包括Hive,Oracle,MySQL,Kafka,MongoDB,Redis等,并且可以将多个不同数据源进行联合分析。可以通过show catalogs 命令看到Presto连接的所有数据源。 Presto是一个低延迟高并发的…

    2022/9/14 2:16:16 人评论 次浏览
  • ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQL Server/Hive数据库的自动化工具

    ExcelToDatabase:批量导入Excel到MySQL/Oracle/SQLServer/Hive数据库简介 ExcelToDatabase 是一个可以批量导入excel到数据库(mysql/oracle/sqlserver/hive)的自动化工具。自动化是其最大的特点,因为它可以根据excel自动导入数据到数据库而不需要做任何映射。批量是它另一…

    2022/9/13 2:25:46 人评论 次浏览
  • Hive优化-重要

    Hiv优化 1.hive的随机抓取策略理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,select字段名也是需要进行mapreduce的过程,默…

    2022/9/8 23:54:47 人评论 次浏览
  • HiveSql调优系列之Hive严格模式,如何合理使用Hive严格模式

    目录综述1.严格模式1.1 参数设置1.2 查看参数1.3 严格模式限制内容及对应参数设置2.实际操作2.1 分区表查询时必须指定分区2.2 order by必须指定limit2.3 限制笛卡尔积3.搭配使用3.1 参数3.2 搭配使用案例 综述 在同样的集群运行环境中,hive调优有两种方式,即参数调优和…

    2022/9/4 2:24:00 人评论 次浏览
  • java通过jdbc连接hive并实时获取日志(转)

    转载:https://blog.csdn.net/weixin_43455443/article/details/115343995 4、通过java代码连接hive on spark,使用hive-jdbc引入pom文件<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <versio…

    2022/9/2 1:24:24 人评论 次浏览
  • 记一次使用“msck repair table 表名”这个命令

    背景: 数据导入到hive后,查询不到数据原因: MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。 我们知道hive有个服务叫metastore,这个服务主要是存储一些元数据信息,比如数据库名,表名或者表的分…

    2022/8/23 23:25:36 人评论 次浏览
  • MySQL表结构批量自动生成HIVE建表语句

    MySQL表结构批量自动生成HIVE建表语句 需求描述 数仓建设过程中,在所难免的需要将大量业务数据导入值hive中,当业务比较复杂导致业务相关表过多时, 建表语句的整理和维护工作增大,手动写hive DDL容易出错且耗时,需要通过一些方法减少工作量。 该方式仅适用于MySQL,其…

    2022/8/9 2:27:13 人评论 次浏览
  • Hive SQL语句的正确执行顺序

    今天我们通过 explain 来验证下 sql 的执行顺序。 在验证之前,先说结论,Hive 中 sql 语句的执行顺序如下: from .. where .. join .. on .. select .. group by .. select .. having .. distinct .. order by .. limit .. union/union all可以看到 group by 是在两个 s…

    2022/8/9 2:25:58 人评论 次浏览
  • 6. 从ods(贴源层)到 dwd(数据明细层)的两种处理方式(spark)-dsl

    6. 从ods(贴源层)到 dwd(数据明细层)的两种处理方式(spark) 6.1 使用spark dsl 方式处理 6.1.1 注意事项 # 开启hive元数据支持,开启之后在spark中可以直接读取hive中的表,但是开启之后就不能再本地云心的了 .enableHiveSupport()# 这下脚本都是作用在dwd层,所以必…

    2022/8/8 6:24:17 人评论 次浏览
  • 自定义udtf函数(一进多出)

    案例要求java编写 package udtf;import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.metadata.HiveException; import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF; import org.apache.hadoop.hive.serde2.objectins…

    2022/8/4 23:24:40 人评论 次浏览
  • HDFS配置HA下spark-sql写入hive报错Wrong FS

    背景:CDH集群的HDFS HA已配置完毕,Hive也相应进行了Update Hive Metastore NameNode,Hive的业务sql脚本都正常运行。在使用spark-sql 写入hive时报错:Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp…

    2022/7/30 2:25:02 人评论 次浏览
  • HIVE SQL COUNT(DISTINCT * 按条件去重

    COUNT(DISTINCT CASE WHEN ******* THEN cid END), COUNT(DISTINCT CASE WHEN ******* THEN cid END),参考 : 统计符合条件的去重过的数量 - - count distinct if case - 伸展代码舒适区 - 博客园 (cnblogs.com)

    2022/7/30 2:22:44 人评论 次浏览
共381记录«上一页1234...26下一页»
扫一扫关注最新编程教程