parquet - 如何在非 Hadoop 环境中对 Paraquet 文件运行分析
问题描述
我们正在生成 Parquet 文件,在非 hadoop 环境中使用 apache Nifi。我们需要对 Parquet 文件进行分析。
除了使用 Hive、Spark 等 Apache 框架外,我们是否有任何开源 BI 或可以读取 Parquet 文件的报告工具,或者是否有任何其他解决方法。在我们的环境中,我们有 Jasper 报告工具。
任何建议表示赞赏。谢谢。
解决方案
您可以在 Python 中轻松处理 Parquet 文件:
- 要读/写 Parquet 文件,您可以使用pyarrow或fastparquet。
- 要分析数据,您可以使用Pandas(它甚至可以使用前一项在幕后提到的实现之一读取/写入Parquet 本身)。
- 要获得一个不错的交互式数据探索环境,您可以使用Jupyter Notebook。
所有这些都在非 Hadoop 环境中工作。
推荐阅读
- php - 将 php 邮件功能与 2 个不同的 smtp 服务器一起使用
- netbeans - 如何在 Netbeans 11 的分析器中将分析模式切换到内存模式?
- c# - 如何将 Click 事件动态附加到多个按钮?
- ubuntu-18.04 - 使用 yolo 进行对象检测 - map
- ansible - 在 Ubuntu 20.04 机器上安装 Ansible 后显示导入错误
- swift - OneSignal - Swift - 接收不同语言的推送通知
- kibana - Kibana:饼图切片仅基于字段的起始值
- deno - Deno:退出时回调
- javascript - 为什么 React 组件不显示在应用程序上?
- c# - C# SMTP 在生产环境中发送带有空正文的电子邮件