DataFrame操作数据的两种方式(SQL和DSL)
2022/8/30 2:22:47
本文主要是介绍DataFrame操作数据的两种方式(SQL和DSL),对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
SQL方式
需要将DataFrame注册成为一张临时表,并给临时表起名字,通过SQL语句查询分析DataFrame中数据
- 局部临时表、全局临时表
[注意]:
--1 如果我们注册的是全局表,查询全局表的时候,必须在表名前加上一个数据库的名字global_temp
val frame = session.sql("select sex, count(*) as num from global_temp.student group by sex")
--2 每次SQL操作完成都会返回一个新的DataFrame,这个DataFrame中就是我们处理分析完成的数据
--3 如果我们DataFrame是从Hive中读取的数据,也可以使用这种方式去操作 - 区别
局部临时表 | 全局临时表 | |
---|---|---|
方法字段 | createTempViewdataFrame.createTempView("student") |
createOrReplaceGlobalTempViewdataFrame.createOrReplaceGlobalTempView("student") |
作用域 | 作用于某个Spark应用程序的所有SparkSession会话 | 作用于某个特定的SparkSession会话如果同一个应用中不同的session需要重用一个临时表,那么不妨将该临时表注册为全局临时表,可以避免多余的IO,提高系统的执行效率,但是如果只是在某个session中使用,只需要注册局部临时表,可以避免不必要的内存占用 |
使用场景 | 局部临时表是和SparkSession挂钩的,SparkSession一旦停止,临时表就无法使用了 | 全局临时表是和Spark Application(SparkContext)挂钩的,只有当Spark应用程序停止了,全局表才无法访问 |
DSL方式
- 展示dataFrame的结构
dataFrame.printSchema()
- 数据展示
println("-----------------------数据展示1开始-------------------------") dataFrame.show() println("-----------------------数据展示1结束-------------------------") println("-----------------------数据展示2开始-------------------------") val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*") dataFrame1.show() println("-----------------------数据展示2结束-------------------------") println("-----------------------数据展示3开始-------------------------") val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*") dataFrame2.show() println("-----------------------数据展示3结束-------------------------")
- 完整代码
package SparkSQL.DataFreamCreate.optdataframe import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import scala.beans.BeanProperty object DSLOper { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("dataFrameCreate").setMaster("local[*]") val sparkSession = SparkSession.builder().config(conf).getOrCreate() val seq:Seq[Student] = Array(Student("zs",20,"男"),Student("ls",21,"女"),Student("ww",22,"男")) val rdd:RDD[Student] = sparkSession.sparkContext.makeRDD(seq) val dataFrame:DataFrame = sparkSession.createDataFrame(rdd,classOf[Student]) println("-----------------------展示结构开始-------------------------") dataFrame.printSchema() println("-----------------------展示结构结束-------------------------") println("-----------------------数据展示1开始-------------------------") dataFrame.show() println("-----------------------数据展示1结束-------------------------") println("-----------------------数据展示2开始-------------------------") val dataFrame1 = dataFrame.groupBy("sex").agg(Map("sex" -> "count")).select("*") dataFrame1.show() println("-----------------------数据展示2结束-------------------------") println("-----------------------数据展示3开始-------------------------") val dataFrame2 = dataFrame.groupBy("name", "age", "sex").agg(Map("age" -> "max", "age" -> "min", "age" -> "avg", "*" -> "count")).select("*") dataFrame2.show() println("-----------------------数据展示3结束-------------------------") // session.sparkContext.makeRDD(dataFrame) } } case class Student(@BeanProperty var name:String,@BeanProperty var age:Int,@BeanProperty var sex:String)
这篇关于DataFrame操作数据的两种方式(SQL和DSL)的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-13TiDB + ES:转转业财系统亿级数据存储优化实践
- 2024-05-09“2024鸿蒙零基础快速实战-仿抖音App开发(ArkTS版)”实战课程已上线
- 2024-05-09聊聊如何通过arthas-tunnel-server来远程管理所有需要arthas监控的应用
- 2024-05-09log4j2这么配就对了
- 2024-05-09nginx修改Content-Type
- 2024-05-09Redis多数据源,看这篇就够了
- 2024-05-09Google Chrome驱动程序 124.0.6367.62(正式版本)去哪下载?
- 2024-05-09有没有大佬知道这种数据应该怎么抓取呀?
- 2024-05-09这种运行结果里的10.100000001,怎么能最快改成10.1?
- 2024-05-09企业src漏洞挖掘-有意思的命令执行