7.Spark SQL

2022/4/27 2:12:51

编程Tag： SQL Spark rdd dataframe hive df

本文主要是介绍7.Spark SQL，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

　　Shark提供了类似于Hive的功能，与Hive不同的是，Shark把SQL语句转换成Spark作业，而不是MAPreduce作业。为了实现Hive的兼容，Shark重用了Hive中的Hive SQL解析、逻辑执行计划翻译、执行计划优化等逻辑。可以近似的认为，Sark仅仅将物理执行计划从Map Reduce作业替换成了Spark作业，也就是通过Hive的HiveSQL解析功能，把Hive SQL翻译成Spark上的RDD操作。Shark的出现，使得SQL-on-Hadoop的性能比Hive有了10~100倍的提高。

2.简述RDD 和DataFrame的联系与区别？

　　Rdd是分布式的Java对象的集合，但是，对象内部的结构对于RDD来说是不可知的。Data Frame是一种以RDD为基础的分布式数据集，提供详细的结构信息，就相当于关系数据库的一张表。

3.DataFrame的创建

　　spark.read.text(url)