apache-spark-sql - Spark SQL vs Hive vs Presto SQL 在 Parquet 文件上进行分析
问题描述
我有数 TB 的数据以 Parquet 格式存储,用于分析用例。有多个大表也需要连接,并且查询量很大。该系统预计具有高度可扩展性。目前,正在评估 Spark SQL、Hive 和 Presto SQL。根据理论,一切似乎都符合要求。您能否说明一下差异以及上述用例应考虑的事项。Tableau 将用于在此之上进行可视化。
解决方案
推荐阅读
- powershell - 安装 Powercli 11.x 时遇到问题
- c# - RecycleBin 的通用路径(修改时检查)
- pandas - 使用列标题堆叠 Pandas 数据框
- laravel - 实现大型网络应用程序的正确方法是什么
- javascript - 状态更改时道具不会更新
- javascript - 使用 JavaScript 检查复选框时更改样式
- asp.net - 在 ASP.NET Core 中检索 ServerVariables
- shell - 用于 ping ip 地址的 shell cgi 脚本
- python - 使用 Python 搜索文件的行
- windows - MSBUILD 未检测到项目文件中的更改