python - 写入文件直到达到一定大小,然后开始新文件
问题描述
我正在使用命令行工具twarc将 Twitter 数据下载为 csv。我已经设置了我的 twarc 命令,它们在命令行上成功执行,没有问题。示例命令:
twarc dosomething > outputfile.jsonl
虽然我想在很长一段时间内执行收集过程,但运行一天多后输出文件变得有点太大(10+GB)。
我想运行一个执行 twarc 命令的 bash 脚本,一直运行到输出文件达到某个限制,然后启动一个新文件。
这些问题相关...
...虽然我的翻译运气不佳。
任何人都可以提供一些有关设置基本 bash 脚本以执行命令、等到文件增长到 X 大小,然后在新文件上重新开始的见解吗?可以从那里拿走...
解决方案
您正在寻找的工具恰如其分地命名为split
:
twarc dosomething | split -b 10G
如果您想避免在文件之间拆分行,您也可以通过行数来执行此操作,但您无法指定大小:
twarc dosomething | split -l 10000000
推荐阅读
- gremlin - 在graphdb中减去多个日期范围
- sql - SQL (Presto):如何在 lat/lon pont 的 X 英里半径内提取位置
- ios - 从 WidgetKit 小部件扩展检测应用程序启动
- google-apps-script - 只允许将电子表格中的文本提交到谷歌网络应用的文本字段中
- r - 在 R 中为 logit 模型使用边距函数的“at”参数
- python-3.x - 将用户输入转换为更改输入持续时间的布尔值的时间?
- stat - 通过 RSEM 分析获得的关于 XXX.cnt 的信息
- github - 如何使用 Github Actions 进行 SFTP?
- javascript - 尝试在javascript中生成消息时由于某种原因在我的代码中解析错误
- android - 在通知通道上设置声音不会播放我的自定义声音(而是播放另一种声音)