apache-spark - Apache Spark 与 Spring Cloud 数据流
问题描述
我是大数据处理的新手,我正在阅读有关流处理和构建数据管道的工具。我找到了 Apache Spark 和 Spring Cloud Data Flow。我想知道它们的主要区别和优缺点。有人可以帮助我吗?
解决方案
它们是两种完全不同的工具。
Spring Data Flow是一个用于构建数据集成和实时数据处理管道的工具包。此工具将帮助您使用 Spring Boot 应用程序(流或任务)编排数据管道。在幕后,SCDF 可能会使用 Spring Batch。请注意,此 Spring Boot 应用程序可以调用 Spark 或 Kafka 应用程序来支持流处理。
Apache Spark是一个数据处理引擎,它被广泛用于数据密集型处理和数据科学。它拥有诸如 ML(机器学习)、Graph(图形处理)、与Apache Kafka(Spark Streaming)的集成等库。
对于流媒体,我强烈建议您学习 Apache Kafka。
推荐阅读
- python - 美汤不解码部分html页面
- node.js - 需要帮助:AADSTS700016:在 Azure 帐户 AD 目录中找不到具有标识符的应用程序?
- r - 在 R 中总结代码而不用太多参数
- python - Python 逆向工程——为什么代码会产生这个特定的结果
- c++ - 错误:leetcode解决方法必须调用非静态成员函数
- flutter - 使用带有 Flutter 的 Android Studio 模拟器时出现问题
- google-apps-script - DriveApp 不喜欢新文件夹?
- python - 如何在没有 --update-alternatives 的情况下设置默认 Python 版本
- python - 使用 numpy 矩阵运算优化矩阵分解算法
- api - 使用两个数据源对响应进行分页