网站首页 站内搜索

搜索结果

查询Tags标签: SparkContext,共有 14条记录
  • spark core案例二:清洗过滤

    题目描述/*** 用户的行为日志数据清洗过滤* 网站的独立访客数:一个唯一的IP地址就是一个独立访客* 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD* 2、RDD中重复的IP去重* 3、RDD中的累加值*/案例object A2DataAnaly {def main(args:…

    2022/8/27 6:24:37 人评论 次浏览
  • Spark快速上手(3)Spark核心编程-RDD转换算子

    RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换 e.g.1val…

    2022/7/2 14:21:03 人评论 次浏览
  • Spark 源码系列 - 获取分区数

    目录版本结论代码入口SparkContext -> textFileSparkContext -> defaultMinPartitionsSparkContext -> defaultParallelismTaskSchedulerImplLocalSchedulerBackend 版本 本分析基于Spark version 3.1.2 结论 local模式下,默认最小分区数不会超过2如果对spark.d…

    2022/5/3 20:14:50 人评论 次浏览
  • Spark 源码系列 - SparkContext启动 - 运行模式

    目录结论SparkContext第三方集群模式 结论 SparkContext启动,根据setMaster设置的Url匹配运行模式。 SparkContext // 根据设置的master字符串的内容进行匹配 master match {// local模式case "local" => ......// local[n] 和 local[*] 模式 n为thread数量…

    2022/5/3 20:14:33 人评论 次浏览
  • 第五章_Spark核心编程_Rdd_行动算子_take

    1.定义/* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */2.示例object takeTest extends App {val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest&q…

    2022/3/27 20:23:05 人评论 次浏览
  • 寒假学习进度6

    今天继续学习sparkRDD的算子 (1)flatMap def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator11")val sparkContext = new SparkContext(sparkConf)val rdd: RDD[List[Int]]= spa…

    2021/12/31 23:07:27 人评论 次浏览
  • 寒假学习进度6

    今天继续学习sparkRDD的算子 (1)flatMap def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator11")val sparkContext = new SparkContext(sparkConf)val rdd: RDD[List[Int]]= spa…

    2021/12/31 23:07:27 人评论 次浏览
  • spark源码跟踪(八)累加器Accumulators

    累加器Accumulators 一,累加器作用及其原理1.1,作用1.2,原理 二,累加器关键源码跟踪阅读2.1,测试代码2.2,跟踪源码2.2.1,add调用2.2.2,merge调用三,累加器在行动算子和转换算子中执行有何不同3.1,测试代码 四,累加器级别4.1,检查点与累加器4.2 多个行动操作与累…

    2021/12/22 14:23:18 人评论 次浏览
  • spark源码跟踪(八)累加器Accumulators

    累加器Accumulators 一,累加器作用及其原理1.1,作用1.2,原理 二,累加器关键源码跟踪阅读2.1,测试代码2.2,跟踪源码2.2.1,add调用2.2.2,merge调用三,累加器在行动算子和转换算子中执行有何不同3.1,测试代码 四,累加器级别4.1,检查点与累加器4.2 多个行动操作与累…

    2021/12/22 14:23:18 人评论 次浏览
  • spark-万物之源WordCount(四)

    Spark实现WordCount的N种方法大家好啊,这里就不自我介绍了,我们说一下WordCount,也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲,为什么呢?因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount,但是呢…

    2021/11/22 23:11:09 人评论 次浏览
  • spark-万物之源WordCount(四)

    Spark实现WordCount的N种方法大家好啊,这里就不自我介绍了,我们说一下WordCount,也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲,为什么呢?因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount,但是呢…

    2021/11/22 23:11:09 人评论 次浏览
  • 用IDEA开发Scala程序helloworld

    历经九九八十一难终于把IDEA的Scala开发环境配好了/*** @author Jack Sun* @data 2021/11/19 - 20:00*/ //注意要想打个main就出来全部,必须要添加下面三个包 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spa…

    2021/11/19 22:12:17 人评论 次浏览
  • 用IDEA开发Scala程序helloworld

    历经九九八十一难终于把IDEA的Scala开发环境配好了/*** @author Jack Sun* @data 2021/11/19 - 20:00*/ //注意要想打个main就出来全部,必须要添加下面三个包 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spa…

    2021/11/19 22:12:17 人评论 次浏览
  • 利用PySpark统计相邻字符串对出现的次数

    如有文件demo.txt数据如下:A;B;C;D;B;D;C B;D;A;E;D;C A;B代码如下:from pyspark import SparkContextsc = SparkContext()rdd1 = sc.textFile(demo.txt) rdd2 = rdd1.map(lambda x: x.split(;))def ne(x):return list(zip(*[x[i:] for i in range(2)]))rdd2.flatMap(ne…

    2021/4/12 18:58:51 人评论 次浏览
扫一扫关注最新编程教程