apache-spark - 在 Spark 中对数百万个二进制文件进行分组
问题描述
我正在寻找一些关于使用 Spark 可能对数百万个文件进行分组的指导
我每天有大约 150 万个文件,大小从几 kb 到 2gb 不等。目前,Spark 难以处理这么多小文件,而且数据偏差很大。我遇到的另一个问题涉及内部消息的大小不同,唯一确定的方法是读取前 n 个字节。
我一直在考虑在 Spark 中编写一个可以压缩这些文件并将它们聚合成大小相等的二进制文件的应用程序。我只是不确定如何配置 spark 来做这样的事情。
解决方案
推荐阅读
- javascript - 如何在不将道具传递给该组件的情况下在组件内设置 div 样式(我正在使用包)
- haskell - 导出位置显示
- javascript - Javascript:使用 document.write() 添加样式内容
- python - 如何使用多个标签访问 groupby 数据框中的值?
- html - 使 div 与最大 div 一样大
- airflow - 如何更改 Apache Airflow 中的默认区域
- android - as3 Android访问下载文件夹中的csv文件
- reporting-services - 在 Excel 中解冻页眉
- ios - 用颤振为苹果手表创建一个应用程序?
- python - 使用python从数据处理中的每一行读取所有数据