spark core案例二:清洗过滤
2022/8/27 6:24:37
本文主要是介绍spark core案例二:清洗过滤,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
- 题目描述
/** * 用户的行为日志数据清洗过滤 * 网站的独立访客数:一个唯一的IP地址就是一个独立访客 * 1、将用户行为日志数据中的IP地址字段获取到返回一个只包含IP地址的RDD * 2、RDD中重复的IP去重 * 3、RDD中的累加值 */
- 案例
object A2DataAnaly { def main(args: Array[String]): Unit = { val sparkConf:SparkConf = new SparkConf().setAppName("demo02").setMaster("local[3]") val sc:SparkContext = new SparkContext(sparkConf) val value: RDD[String] = sc.textFile("hdfs://node1:9000/dc") val ip = value.map((line: String) => { val str = line.split(" ") (str(0), 1) }) val ipAll: RDD[(String, Int)] = ip.distinct() println(ipAll.count()) sc.stop() } }
这篇关于spark core案例二:清洗过滤的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-04-26高性能表格工具VTable总体构成-icode9专业技术文章分享
- 2024-04-16软路由代理问题, tg 无法代理问题-icode9专业技术文章分享
- 2024-04-16程序猿用什么锅-icode9专业技术文章分享
- 2024-04-16自建 NAS 的方案-icode9专业技术文章分享
- 2024-04-14ansible 在远程主机上执行脚本,并传入参数-icode9专业技术文章分享
- 2024-04-14ansible 在远程主机上执行脚本,并传入参数, 加上remote_src: yes 配置-icode9专业技术文章分享
- 2024-04-14ansible 检测远程主机的8080端口,如果关闭,则echo 进程已关闭-icode9专业技术文章分享
- 2024-04-14result 成功怎么写-icode9专业技术文章分享
- 2024-04-14stopped 状态设置为变量,由外部传递进来-icode9专业技术文章分享
- 2024-04-14为什么ansible执行远程脚本需要放到后台-icode9专业技术文章分享