pyarrow - 如何在 python 中使用 pyarrow 读取 csv 文件
问题描述
我已使用以下命令连接到我的 HDFS
import pyarrow as pa
import pyarrow.parquet as pq
fs = pa.hdfs.connect(self.namenode, self.port, user=self.username, kerb_ticket = self.cert)
我正在使用以下命令来读取镶木地板文件
fs.read_parquet()
但没有常规文本文件(例如 csv 文件)的读取方法。如何使用 pyarrow 读取 csv 文件。
解决方案
您需要创建一个类似文件的对象并直接使用 CSV 模块。见pyarrow.csv.read_csv
推荐阅读
- sql-server - 拆分字符串并将部分插入表格内的正确列中
- javascript - 如何使用 JavaScript 检索同样在 JavaScript 中创建的 html 元素
- python - python36-devel 与 python3-dev
- python - 允许 RabbitMQ 和 Pika 保持连接始终打开
- npm - 我在哪里可以找到所有 npm 标志/标签/选项的列表?
- python - compile() 缺少 1 个必需的位置参数:'loss'
- excel - Excel 公式:COUNTIFS() 返回值错误
- elasticsearch - 在 ElasticSearch 中启用自动完成查询
- flutter - 在使用 flutter_bloc 库调度事件之前等待一些结果
- tensorflow - Kubeflow 中的分布式张量流 - NotFoundError