java - Java 序列化 vs Hadoop 序列化 vs Spark 序列化
问题描述
我一直在研究Serialization
和Deserialization
处理并Java
试图理解同样的事情。Hadoop
Spark
Hadoop
有人可以让我知道 和 的序列化过程之间Spark
的区别Java
。
解决方案
Hadoop 有自己的序列化接口(Writable),旨在使产生的垃圾尽可能少。当 mapper 或 reducer 运行时,实现它的对象是可变的和重用的,从而进一步降低了垃圾量。设计合理的 Writables 也可以由不同版本的代码编写,解决了 Serializable 的固有问题。
Spark 没有自己的序列化,默认使用原生 java 序列化。它的性能不是很好,并且可以使用Kryo制作 spark ,这有时会带来 10 倍的性能增益。但是,在使用 Kryo 时,所有自定义类都应在运行作业之前在 SparkConf 中注册。
推荐阅读
- r - 相同的 Excel 数据,相同的 .RMD 文件,不同的降价结果
- c# - 在 UWP、MVVM 中实现周期性进程
- c# - C# - 如何将数组中的元素传递给类中的属性
- java - 我该如何调整和改进这个乘法表?
- maven - 将 Maven 驱动的 Vaadin 8.5 项目适配到 Jakarta EE 兼容服务器上
- ios - 在键盘上方显示 UIView 无法正常工作
- python - 在 qtreewidget pyqt5 中格式化子项
- c++ - C++ 确保子类为常量提供自定义值
- visual-studio-code - 我可以更改 VSCode 图标吗?
- android - Android SDK:repositories.cfg 丢失