网站首页 站内搜索

搜索结果

查询Tags标签: Spark,共有 703条记录
  • linux安装spark

    一、安装依赖信息 spark版本:spark-3.1.3-bin-hadoop3.2 hadoop版本:hadoop-3.2.1 scala版本:scala-2.11.12 建议3.12版本 下载地址:https://spark.apache.org/downloads.html 二、安装 2.1 单机配置环境 vim ~/.bash_profile #Spark3 SPARK_HOME=/Users/Robots2/so…

    2022/4/3 7:19:39 人评论 次浏览
  • 第五章_Spark核心编程_Rdd_血缘关系

    1. RDD 血缘关系/*RDD 血缘关系*//** 1. 什么是Rdd的血缘关系?* 1.RDD 只支持粗粒度转换,即在大量记录上执行的单个操作。* 2.将创建 RDD 的一系列 Lineage (血统)记录下来,以便恢复丢失的分区。* 3.RDD的 Lineage 会记录RDD的 元数据信息和转换行为* 当该R…

    2022/4/1 14:19:42 人评论 次浏览
  • 【转载】Spark集群环境搭建——部署Spark集群

    转在doublexi: https://www.cnblogs.com/doublexi/p/15624795.html在前面我们已经准备了三台服务器,并做好初始化,配置好jdk与免密登录等。并且已经安装好了hadoop集群。如果还没有配置好的,参考我前面两篇博客:Spark集群环境搭建——服务器环境初始化:https://www.c…

    2022/3/28 23:53:20 人评论 次浏览
  • 第五章_Spark核心编程_Rdd_行动算子_take

    1.定义/* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */2.示例object takeTest extends App {val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest&q…

    2022/3/27 20:23:05 人评论 次浏览
  • 第五章_Spark核心编程_Rdd_行动算子_save oprator

    1.定义/* * 1.定义 * def saveAsTextFile(path: String): Unit * def saveAsObjectFile(path: String): Unit * def saveAsSequenceFile( * path: String, * codec: Option[Class[_ <: CompressionCodec]] = None): Unit * 2.功能…

    2022/3/27 20:23:03 人评论 次浏览
  • 第五章_Spark核心编程_Rdd_转换算子_keyValue型_sortByKey

    1.定义/** 1.定义* def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)* : RDD[(K, V)] = self.withScope* ascending : true-正序 false-逆序* numPartitions : 排序完后,对结果数据的分区数** 2.功能* 拉取所…

    2022/3/26 11:22:36 人评论 次浏览
  • python 使用 SPARK Hadoop

    下载相应包。然后放到linux 相关目录,然后配置环境变量,配置文件如下vim ~/.bash_profile # .bash_profile# Get the aliases and functions if [ -f ~/.bashrc ]; then. ~/.bashrc fi# User specific environment and startup programsPATH=$PATH:$HOME/.local/bin:$HO…

    2022/3/21 17:57:37 人评论 次浏览
  • 3.Spark设计与运行原理,基本操作

    1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能 Spark Core: 是整个BDAS生态系统的核心组件,是一个分布式大数据处理框架。其包含Spark最基础和最核心的功能,如内存计算、任务调度、部署模式、故障恢复、存储…

    2022/3/10 23:17:25 人评论 次浏览
  • 3.Spark设计与运行原理,基本操作

    1.Spark已打造出结构一体化、功能多样化的大数据生态系统,请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。图1 Spark生态系统的组成及各组件各个组件的…

    2022/3/10 23:15:19 人评论 次浏览
  • Spark设计与运行原理,基本操作

    一、请用图文阐述Spark生态系统的组成及各组件的功能。 Spark的生态系统主要包含了Spark Core、Spark SQL、Spark Streaming、Structured Streaming、MLlib和GraphX等组件。图1 Spark生态系统的组成及各组件各个组件的具体功能如下: Spark Core Spark Core包含Spark最基础…

    2022/3/10 6:14:59 人评论 次浏览
  • 图解大数据 | 流式数据处理-Spark Streaming

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-detail/179 声明:版权所有,转载请联系平台与作者并注明出处 1.Spark Streaming解读1)Spark Streaming简介 Spark Streaming是Spark核心API的一个扩…

    2022/3/9 6:17:28 人评论 次浏览
  • 2.安装Spark与Python练习

    一、安装Spark检查基础环境hadoop,jdk 2.下载spark 3.配置文件配置环境vim /usr/local/spark/conf/spark-env.sh二、Python编程练习:英文文本的词频统计1.准备文本文件2.统计每个单词出现的次数 counts = {} for word in afterwords: counts[word] = coun…

    2022/3/8 22:14:44 人评论 次浏览
  • 2.安装Spark与Python练习

    一、安装Spark 1.检查基础环境hadoop,jdk2.下载spark 3.解压,文件夹重命名、权限4.配置文件5.环境变量6.试运行Python代码 二、Python编程练习:英文文本的词频统计准备文本文件 读文件 预处理:大小写,标点符号,停用词 分词 统计每个单词出现的次数 按词频大小排序 结…

    2022/3/8 20:45:08 人评论 次浏览
  • 2.安装Spark与Python练习

    一、安装Spark 1.检查基础环境hadoop,jdk2.下载spark 3.解压,文件夹重命名、权限 4.配置文件5.环境变量6.试运行Python代码二、Python编程练习:英文文本的词频统计 1.准备文本文件2.读文件3.统计每个单词出现的次数

    2022/3/8 20:14:59 人评论 次浏览
  • 2.安装Spark与Python练习

    一、安装Spark检查基础环境hadoop,jdk下载spark 解压,文件夹重命名、权限 配置文件环境变量 试运行Python代码二、Python编程练习:英文文本的词频统计准备文本文件 读文件 预处理:大小写,标点符号,停用词with open("Under the Red Dragon.txt", "r&qu…

    2022/3/8 20:14:57 人评论 次浏览
扫一扫关注最新编程教程