首页 > 解决方案 > 熊猫数据框到镶木地板文件的转换

问题描述

我正在尝试通过将 csv 文件从 s3 存储桶转换为 txt 文件来将其移动到另一个存储桶,但我遇到了各种分隔符问题。所以我决定将 csv 转换为 parquet 文件,但我不确定我是否做得对。这是转换为镶木地板文件的正确方法吗?我们有另一个 ETL(胶水爬虫),它会拾取这些 parquet 文件并将它们填充到 redshift。我可以在 s3 存储桶中看到 parquet 文件,但在 redshift 数据库中看不到。所以想知道文件是否正确转换为镶木地板。

bucket = 'source bucket'
file = 'file path'
    
    
    obj = client.get_object(Bucket= bucket, Key= file)
    initial_df = pd.read_csv(obj['Body'])
    
    
    file = 'file.parquet'
    bucketdest = 'destinationbucketname'
    buf = BytesIO()
    initial_df.to_parquet(buf, index=False)
    s3_file = 'path'+file
    print(s3_file)
    buf.seek(0)
    s3 = session2.resource('s3')
    s3.Object(bucketdest, s3_file).put(Body=buf.getvalue())
    print('loaded')

标签: pythonpandascsvamazon-s3parquet

解决方案


为了将 Pandas DF 保存为 parquet 格式,您需要运行以下命令

df.to_parquet('C:\\Desktop\myfile.parquet')

您可能会收到以下错误。

ImportError:无法找到可用的引擎;尝试使用:'pyarrow'、'fastparquet'。拼花支持需要 pyarrow 或 fastparquet

安装 pyarrow 或 fastparquet 库来解决问题

pip install pyarrow
pip install fastparquet

推荐阅读