首页 > 解决方案 > 将数据从 postgresql 提取到 pyspark 数据帧时,我应该使用模式吗

问题描述

我有一个 pyspark 工作,从 postgresql 数据库中获取数据。在读取数据以优化和加快提取速度时,我应该使用模式吗?(在读取数据时创建模式通常会使读取速度更快,正如我所理解的那样)

然后将数据转换为 pandas 数据框,在此转换中我应该指定架构还是已经优化?

标签: pythonpysparkschemapyspark-sql

解决方案


You do not need to use a schema every time you read something with spark.

  • you need (or infer) a schema for CSV, JSON
  • you do not need a schema for PARQUET, AVRO, ORC, DB

Check the official doc of reader to see if you can add a schema option. If no, there is no need to provide a schema.

When you convert from pyspark dataframe to pandas dataframe, the schema is kept. No need to add anything. Just be sure you have enough space in memory.


推荐阅读