python - 将数据从 postgresql 提取到 pyspark 数据帧时,我应该使用模式吗
问题描述
我有一个 pyspark 工作,从 postgresql 数据库中获取数据。在读取数据以优化和加快提取速度时,我应该使用模式吗?(在读取数据时创建模式通常会使读取速度更快,正如我所理解的那样)
然后将数据转换为 pandas 数据框,在此转换中我应该指定架构还是已经优化?
解决方案
You do not need to use a schema every time you read something with spark.
- you need (or infer) a schema for CSV, JSON
- you do not need a schema for PARQUET, AVRO, ORC, DB
Check the official doc of reader
to see if you can add a schema
option. If no, there is no need to provide a schema.
When you convert from pyspark dataframe to pandas dataframe, the schema is kept. No need to add anything. Just be sure you have enough space in memory.
推荐阅读
- javascript - 为什么 JS 构造函数方法在构造函数中调用时工作正常,但在自调用/IIEF 时执行不佳?
- multithreading - 如何在多线程环境下修改 Kotlin StateFlow 内容?
- autodesk-forge - Autodesk Forge Viewer getScreenshot 方法
- c++ - 我可以让 lambdas 推断出变体返回类型吗?
- azure - Azure Key Vault - 列出所有请求机密的应用(托管标识)
- sql - 通过 Flyway SQL 脚本为 PostgreSQL 中新创建的列设置不为空
- python - for循环访问多个excel工作表
- typescript - 在 Vue.use 中使用配置文件
- machine-learning - 训练/测试拆分之前或之后的欠采样
- powershell - PowerShell 发送密钥到卸载提示