MapReduce编程-MapReduce的高级特性
2021/7/31 17:07:45
本文主要是介绍MapReduce编程-MapReduce的高级特性,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
MapReduce的高级特性
1、序列化:
接口Writable(类似Java的序列化)
功能:实现自定义的数据类型
(1)举例:创建一个Employee类,封装员工数据,作为Map输出的value(v2,k2使用员工号)
2、排序:默认的排序规则:数字---升序
字符串---按照字典顺序
对象:按照员工的薪水
按照K2进行排序
自定义排序排序规则:数字、字符串、对象(WritableComparable)
3、分区:Partition(非常重要)
默认:MapReduce只有一个分区(一个分区是一个输出文件)
根据Map的输出建立分区<k2,v2>
举例:根据员工的部门号建立分区
4、Combiner合并,是一种特殊的Reduce;是MapReduce的一种优化的方式
(1)有些情况不能使用Combiner:求平均值
(2)不管有没有Combiner不能改变最后运行结果
(3)不管有没有Combiner,都不应该改变原有的处理逻辑。(案例:倒排索引)
5、MapReduce核心:Shuffle洗牌
这篇关于MapReduce编程-MapReduce的高级特性的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-05-15PingCAP 黄东旭参与 CCF 秀湖会议,共探开源教育未来
- 2024-05-13PingCAP 戴涛:构建面向未来的金融核心系统
- 2024-05-09flutter3.x_macos桌面os实战
- 2024-05-09Rust中的并发性:Sync 和 Send Traits
- 2024-05-08使用Ollama和OpenWebUI在CPU上玩转Meta Llama3-8B
- 2024-05-08完工标准(DoD)与验收条件(AC)究竟有什么不同?
- 2024-05-084万 star 的 NocoDB 在 sealos 上一键起,轻松把数据库编程智能表格
- 2024-05-08Mac 版Stable Diffusion WebUI的安装
- 2024-05-08解锁CodeGeeX智能问答中3项独有的隐藏技能
- 2024-05-08RAG算法优化+新增代码仓库支持,CodeGeeX的@repo功能效果提升