python - Spark 从第二行读取,如 Pandas header=1
问题描述
在带有 Python 的 Pandas 中,我可以使用:
for item in read_csv(csv_file, header=1)
在 Spark 中,我只能选择真/假?
df = spark.read.format("csv").option("header", "true").load('myfile.csv')
如何从 Spark 的第二行开始阅读?建议的重复帖子是 Spark 的过时版本。我正在使用最新的 2.4.3。
解决方案
看起来 spark csv 中没有选项来指定要跳过的行数。以下是您可以尝试的一些替代方案:
- 使用 读取
option("header", "true")
,并使用 重命名列名withColumnRenamed
。 - 使用 读取
option("header", "false")
,并使用 select 从第二行中选择行。 - 如果第一行的第一个字符与所有其他行不同,您可以使用
comment
选项跳过它。例如,如果第 1 行的第一个字符是D
,则设置comment='D'
. 请注意,将跳过以此处comment
开头的任何行。D
希望这可以帮助。
推荐阅读
- swift - 在 SwiftUI 中实现昂贵的派生属性的最佳方法是什么?
- flutter - 为什么有时上下文被替换为下划线或“_”?
- spring-boot - 使用外部承载令牌以执行 REST API
- sonarqube - 错误:org.h2.jdbc.JdbcSQLException:找不到表“USERS”
- java - 我可以将所有这些功能放入一个枚举中吗?
- python - python 显示错误:错误绑定参数 0 - 可能是不受支持的类型
- python - 使用 Apscheduler 时出错。Skipped:已运行的最大运行实例数(10)设置max_instances无效
- php - Wordpress 上的代码 PHP 不适用于 PHP 8
- sql - JOIN 子句的括号
- java - Android 应用程序在调试模式下完美运行,但在运行模式下冻结 Java