网站首页 站内搜索

搜索结果

查询Tags标签: Spark,共有 703条记录
  • HDFS配置HA下spark-sql写入hive报错Wrong FS

    背景:CDH集群的HDFS HA已配置完毕,Hive也相应进行了Update Hive Metastore NameNode,Hive的业务sql脚本都正常运行。在使用spark-sql 写入hive时报错:Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp…

    2022/7/30 2:25:02 人评论 次浏览
  • spark sql 概述

    目录sparkspark sqlDataFrame使用方法 spark基于内存的计算引擎,计算速度非常快,但是只涉及数据的计算,没有涉及数据的存储。spark sqlSpark sql不仅仅支持sql操作,还提供了例如外部数据源,以及各种优化 spark sql不仅提供了sql的api,还提供了DataFrame和Dataset的a…

    2022/7/27 2:24:01 人评论 次浏览
  • CVE-2022-33891 Apache spark shell 命令注入漏洞复现

    简介 Spark 是用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Spark 上的 Pandas AP…

    2022/7/26 5:22:57 人评论 次浏览
  • spark 启动standalone

    cd /export/server/sparksbin/start-master.shsbin/start-workers.shsbin/start-history-server.sh 监控:启动以后才能访问 http://node1:8080/ Master监控服务:相当于YARN中的8088 http://node1:18080/ HistoryServer历史监控服务:相当于MR中的19888- Master提交程序…

    2022/7/23 6:24:13 人评论 次浏览
  • spark standalone 部署

    上传 spark-3.1.2-bin-hadoop3.2.tgz 到 /export/software/ # 解压安装cd /export/software/tar -zxf spark-3.1.2-bin-hadoop3.2.tgz -C /export/server # 重命名cd /export/servermv spark-3.1.2-bin-hadoop3.2 spark-standalone# 重新构建软连接rm -rf sparkln -s spar…

    2022/7/23 6:22:47 人评论 次浏览
  • 大数据综合项目设计.考试复习题

    一、选择题 1. 对文件进行归档的命令为 D 。 A. dd B. cpio C. gzip D. tar 2. 改变文件所有者的命令为 C 。 A. chmod B. touch C. chown D. cat 3. 在给定文件中查找与设定条件相符字符串的命令为 A 。 A. grep B. gzip C. find D. sort 4. 建立一个新文件可以使用的命…

    2022/7/22 23:30:43 人评论 次浏览
  • Spark_常用算子

    Spark_常用算子 sortBy-sortBy: 指定一个字段进行排序,默认是升序, ascending = false: 降序 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}object Demo13Sort {def main(args: Array[String]): Unit = {v…

    2022/7/13 6:22:34 人评论 次浏览
  • Spark—算子—spark缓存策略

    Spark—算子—spark缓存策略 转换算子和操作算子转换算子 转换算子:将一个RDD转换成另一个RDD,转换算子是懒执行,需要action算子来触发执行 操作算子 触发任务执行,一个action算子会触发一次任务执行,同时每一个action算子都会触发前面的代码执行 package com.core.d…

    2022/7/13 6:22:28 人评论 次浏览
  • 【每日操作与学习】2022年7月11日-做长期规划

    〇、规划 1、电脑重装 2、安装需要的软件 3、Git提交代码 4、使用maven配置spark并进行编程 5、搭建虚拟机集群 6、使用Git构建个人主页,使用Nginx构建个人主页 7、远程连接Linux 8、本地安装docker 9、spark读表数据 10、构建Hadoop环境 一、回来的计划 SQL&整理 da…

    2022/7/12 6:22:10 人评论 次浏览
  • spark与MapReduce的区别

    spark与MapReduce的区别 内存和磁盘的区别spark最核心的概念是RDD(弹性分布式数据集),它的所有RDD在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储…

    2022/7/11 23:21:16 人评论 次浏览
  • Spark快速上手(6)Spark核心编程-RDD行动算子Action

    RDD(3) RDD行动算子 所谓行动算子,就是触发Job执行的方法 reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据 e.g. code: def main(args: Array[String]): Unit = {val source: RDD[Int] = sc.makeRD…

    2022/7/8 14:24:09 人评论 次浏览
  • 【Spark】spark.sql.sources.partitionOverwriteMode

    参考:(80条消息) spark优化之分区插入_大怀特的博客-CSDN博客_spark插入// 覆盖指定分区table("tv_group").write.option("partitionOverwriteMode", "dynamic").partitionBy("store_id", "group_id"). mode(Sav…

    2022/7/8 2:20:17 人评论 次浏览
  • Spark快速上手(4)Spark核心编程-Spark分区器(Partitioner)@(RDD-K_V)

    @Spark分区器(Partitioner) HashPartitioner(默认的分区器) HashPartitioner分区原理是对于给定的key,计算其hashCode,并除以分区的个数取余,如果余数小于0,则余数+分区的个数,最后返回的值就是这个key所属的分区ID,当key为null值是返回0。 源码在org.apache.spar…

    2022/7/5 1:20:19 人评论 次浏览
  • Spark快速上手(3)Spark核心编程-RDD转换算子

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1val…

    2022/7/2 14:21:03 人评论 次浏览
  • Spark SQL 数据源 parquet文件

    scala> val employee = sqlparquet.read.json("employee.json") 这里将txt转化为parquet应该也行 employee: org.apache.spark.sql.DataFrame = [_corrupt_record: string, age: string ... 2 more fields]scala> employee.write.parquet("employee.…

    2022/6/25 2:19:48 人评论 次浏览
扫一扫关注最新编程教程