7.Spark SQL

2022/5/10 19:02:35

编程Tag： SQL list read Spark dataframe df

本文主要是介绍7.Spark SQL，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

答：1.关系数据库已经很流行 2.关系数据库在大数据时代已经不能满足要求•首先，用户需要从不同数据源执行各种操作，包括结构化、半结构化和非结构化数据。其次，用户需要执行高级分析，比如机器学习和图像处理•在实际大数据应用中，经常需要融合关系查询和复杂分析算法（比如机器学习或图像处理），但是，缺少这样的系统。

Spark SQL填补了这个鸿沟：首先，可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系型操作。其次，可以支持大数据中的大量数据源和数据分析算法Spark SQL可以融合：传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

2. 简述RDD 和DataFrame的联系与区别？

答：联系：Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询

区别：1.RDD是分布式的Java对象的集合，但是，对象内部结构对于RDD而言却是不可知的 2.DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

3.DataFrame的创建

spark.read.text(url)

spark.read.json(url)

spark.read.format("text").load("people.txt")

spark.read.format("json").load("people.json")