站内搜索关键词：SparkContext，共有14个结果！为之网,www.weizhi.cc

热门标签更多>

Java (39556) python (32336) mysql (18517) int (18371) android (12233) linux (11908) public (10045) javascript (9605) -- (8450) C++ (8056) Redis (7974) 数据库 (7876) string (7726) 算法 (7099) 安装 (6804) js (6730) 文件 (6610) name (6609) jQuery (6507) php (6479) SQL (6385) 源码 (5933) new (5620) system (5620) 函数 (5604) 线程 (5432) print (5290) return (5272) id (5083) spring (4787) vue (4743) 数据 (4565) 前端 (4468) import (4409) root (4321) 学习 (4284) 数组 (4177) nginx (4149) out (4101) c# (4027) 方法 (3966) 字符串 (3937) 对象 (3873) https (3802) 10 (3694) data (3678) println (3678) com (3610) 编程 (3556) select (3516) oracle (3442) 面试 (3415) windows (3408) docker (3341) 内存 (3284) key (3212) ios (3133) 服务器 (3132) 笔记 (3111) list (3105) node (3104) 代码 (3076) 节点 (3059) 查询 (3056) 元素 (2995) void (2835) 变量 (2831) null (2817) include (2816) __ (2807) log (2713) server (2678) var (2625) 命令 (2599) 语句 (2564) html (2534) class (2529) vue.js (2481) 程序员 (2469) 索引 (2466)

搜索结果

查询Tags标签： SparkContext，共有 14条记录

spark core案例二：清洗过滤

题目描述/*** 用户的行为日志数据清洗过滤* 网站的独立访客数：一个唯一的IP地址就是一个独立访客* 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD* 2、RDD中重复的IP去重* 3、RDD中的累加值*/案例object A2DataAnaly {def main(args:…

2022/8/27 6:24:37 人评论次浏览
Spark快速上手(3)Spark核心编程-RDD转换算子

RDD(2) RDD转换算子 RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型、Key-Value类型 value类型 map 函数签名 def map[U:ClassTag](f:T=>U):RDD[U] 函数说明将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换 e.g.1val…

2022/7/2 14:21:03 人评论次浏览
Spark 源码系列 - 获取分区数

目录版本结论代码入口SparkContext -> textFileSparkContext -> defaultMinPartitionsSparkContext -> defaultParallelismTaskSchedulerImplLocalSchedulerBackend 版本本分析基于Spark version 3.1.2 结论 local模式下，默认最小分区数不会超过2如果对spark.d…

2022/5/3 20:14:50 人评论次浏览
Spark 源码系列 - SparkContext启动 - 运行模式

目录结论SparkContext第三方集群模式结论 SparkContext启动，根据setMaster设置的Url匹配运行模式。 SparkContext // 根据设置的master字符串的内容进行匹配 master match {// local模式case "local" => ......// local[n] 和 local[*] 模式 n为thread数量…

2022/5/3 20:14:33 人评论次浏览
第五章_Spark核心编程_Rdd_行动算子_take

1.定义/* * 1.定义 * def take(num: Int): Array[T] * 2.功能 * 返回一个由 RDD 的前 n 个元素组成的数组 * * */2.示例object takeTest extends App {val sparkconf: SparkConf = new SparkConf().setMaster("local").setAppName("distinctTest&q…

2022/3/27 20:23:05 人评论次浏览
寒假学习进度6

今天继续学习sparkRDD的算子（1）flatMap def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator11")val sparkContext = new SparkContext(sparkConf)val rdd: RDD[List[Int]]= spa…

2021/12/31 23:07:27 人评论次浏览
寒假学习进度6

今天继续学习sparkRDD的算子（1）flatMap def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator11")val sparkContext = new SparkContext(sparkConf)val rdd: RDD[List[Int]]= spa…

2021/12/31 23:07:27 人评论次浏览
spark源码跟踪(八)累加器Accumulators

累加器Accumulators 一，累加器作用及其原理1.1，作用1.2，原理二，累加器关键源码跟踪阅读2.1，测试代码2.2，跟踪源码2.2.1，add调用2.2.2，merge调用三，累加器在行动算子和转换算子中执行有何不同3.1，测试代码四，累加器级别4.1,检查点与累加器4.2 多个行动操作与累…

2021/12/22 14:23:18 人评论次浏览
spark源码跟踪(八)累加器Accumulators

累加器Accumulators 一，累加器作用及其原理1.1，作用1.2，原理二，累加器关键源码跟踪阅读2.1，测试代码2.2，跟踪源码2.2.1，add调用2.2.2，merge调用三，累加器在行动算子和转换算子中执行有何不同3.1，测试代码四，累加器级别4.1,检查点与累加器4.2 多个行动操作与累…

2021/12/22 14:23:18 人评论次浏览
spark-万物之源WordCount（四）

Spark实现WordCount的N种方法大家好啊，这里就不自我介绍了，我们说一下WordCount，也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲，为什么呢？因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount，但是呢…

2021/11/22 23:11:09 人评论次浏览
spark-万物之源WordCount（四）

Spark实现WordCount的N种方法大家好啊，这里就不自我介绍了，我们说一下WordCount，也就是词频。大家可能在各种渠道学习数据处理都会是WordCount首当其冲，为什么呢？因为WordCount简单。但是可以很好的形容数据处理和数据统计。今天我们也跟风的讲一讲WordCount，但是呢…

2021/11/22 23:11:09 人评论次浏览
用IDEA开发Scala程序helloworld

历经九九八十一难终于把IDEA的Scala开发环境配好了/*** @author Jack Sun* @data 2021/11/19 - 20:00*/ //注意要想打个main就出来全部，必须要添加下面三个包 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spa…

2021/11/19 22:12:17 人评论次浏览
用IDEA开发Scala程序helloworld

历经九九八十一难终于把IDEA的Scala开发环境配好了/*** @author Jack Sun* @data 2021/11/19 - 20:00*/ //注意要想打个main就出来全部，必须要添加下面三个包 import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.Spa…

2021/11/19 22:12:17 人评论次浏览
利用PySpark统计相邻字符串对出现的次数

如有文件demo.txt数据如下：A;B;C;D;B;D;C B;D;A;E;D;C A;B代码如下：from pyspark import SparkContextsc = SparkContext()rdd1 = sc.textFile(demo.txt) rdd2 = rdd1.map(lambda x: x.split(;))def ne(x):return list(zip(*[x[i:] for i in range(2)]))rdd2.flatMap(ne…

2021/4/12 18:58:51 人评论次浏览