Hive 分区表增加字段并赋值
2021/10/11 23:14:29
本文主要是介绍Hive 分区表增加字段并赋值,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
Hive 分区表增加字段并赋值
- 前言
- 背景
- 解决方案
- 具体操作
- 注意事项
- 总结
前言
最近工作上需要用到大数据平台,之前没用过大数据相关的工具,所以踩了不少坑。今天就把在分区表中添加字段的坑分享出来,避免再次踩坑。
背景
今天接到一个需求,在原有的 hive 分区表中需要添加一个字段,并且原来的数据中这个字段还是需要赋值。后续这个值是由 ETL 任务去拉取的,所以只需要解决好原来的数据。
解决方案
- 为了数据不丢失,先把原表备份,备份表名叫 xxx_temp(备份表这里不给出语句)。
- 备份完了之后,开始把原表结算复制一份,然后添加新加的字段,复制表名叫 xxx_temp1。
- 在把原表的数据复制到 xxx_temp1 的同时,把新加的字段也赋值上去。
- 把原表的数据 truncate 掉,然后添加新字段(这里为了尝试,先用了另外一个备份表 xxx_temp2)。
- 把复制表(xxx_temp1)中的数据 insert 到原表里面,任务完成。
具体操作
代码如下:
-- 创建表,这里需要用 like,不能用 as,如果用 as 分区表的分区是不会复制到新表上 create table 库名.xxx_temp1 like 库名.xxx; -- 新增表字段 alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc"); -- 如果上面用了 like,里面的数据是不会到新表,需要执行下面的语句,把数据拉到新表 set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table 库名.xxx_temp1 partition(inc_day) select *, inc_day from 库名.xxx; -- 查看数据是否拉到新表 select * from 库名.xxx_temp1 limit 10; select count(*) from 库名.xxx_temp1 limit 10; -- 删除 xxx_temp2 drop table 库名.xxx_temp2; -- 创建 xxx_temp2 create table 库名.xxx_temp2 like 库名.xxx; -- 赋值 set hive.exec.dynamic.partition.mode=nonstrict; insert into table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx; -- 删除表 xxx_temp2 中数据 truncate table库名.xxx_temp2; -- 特别注意这里,分区表需要添加两次,只添加一次的话,到时候会没数据 alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc"); alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc"); -- 插入备份表的数据 set hive.exec.dynamic.partition.mode=nonstrict; insert overwrite table 库名.xxx_temp2 partition(inc_day) select * from 库名.xxx_temp1; -- 查询是否有数据和数据是否正确 select * from 库名.xxx_temp2 limit 10;
注意事项
这里有两点需要注意的事项:
- 如果分区表里没有分区,或者说没有数据时,添加字段只需要添加一次就行了,也就是执行
alter table 库名.xxx_temp1 add columns (xxx_fff string COMMENT "ccc");
这个语句就行了。 - 如果分区表里有分区,前提是分区里面没有数据,添加字段时就需要添加两次。如果不是,那从另一个表复制数据过来时,这个新增的字段是不会有值的。
注意:这里是因为要处理原来存在分区的数据,所以第二次添加是需要在之前的分区也添加新增的字段才会生效。alter table 库名.xxx_temp2 add columns (xxx_fff string COMMENT "ccc"); alter table 库名.xxx_temp2 partition(inc_day) add columns (xxx_fff string COMMENT "ccc");
总结
这是在用大数据工具中的踩坑经历,希望能对大家有帮助,共同学习。
这篇关于Hive 分区表增加字段并赋值的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-25外企也半夜发布上线吗?
- 2024-05-24鸿蒙原生应用再新丁!芒果TV 入局鸿蒙
- 2024-05-22基本概念
- 2024-05-22检索数据
- 2024-05-22排序数据
- 2024-05-22基础过滤数据
- 2024-05-22通过逻辑操作符过滤数据
- 2024-05-22通过通配符过滤数据
- 2024-05-22字段的拼接与计算
- 2024-05-22聚合函数