python - pyspark:数据类型更改功能
问题描述
我有一个 iris.csv 数据集。我将 csv 文件加载到 RDD 中,我应该将所有数值更改为浮点数。我试图将其转换为数据框,但它说“无法推断类型的模式:类'str'”我一整天都在尝试这样做,但我做不到。因为我是初学者,你能帮帮我吗
irisRDD = sc.textFile("C:/Users/fox/Desktop/KOREAN/iris.csv")
>>> newirisRDD = irisRDD.toDF()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "C:\spark\python\pyspark\sql\session.py", line 61, in toDF
return sparkSession.createDataFrame(self, schema, sampleRatio)
File "C:\spark\python\pyspark\sql\session.py", line 605, in createDataFrame
return self._create_dataframe(data, schema, samplingRatio, verifySchema)
File "C:\spark\python\pyspark\sql\session.py", line 628, in _create_dataframe
rdd, schema = self._createFromRDD(data.map(prepare), schema, samplingRatio)
File "C:\spark\python\pyspark\sql\session.py", line 425, in _createFromRDD
struct = self._inferSchema(rdd, samplingRatio, names=schema)
File "C:\spark\python\pyspark\sql\session.py", line 405, in _inferSchema
schema = _infer_schema(first, names=names)
File "C:\spark\python\pyspark\sql\types.py", line 1067, in _infer_schema
raise TypeError("Can not infer schema for type: %s" % type(row))
TypeError: Can not infer schema for type: <class 'str'>
>>>
解决方案
推荐阅读
- java - 使用 Spring MVC 无法同时正确打印 ArrayList 和 HTML 中的表单
- kubernetes - helm 无法在 AKS 中列出版本
- model - 仅包含几何图形的 3D 模型文件格式
- azure-cosmosdb - 如何在 Azure Cosmos DB 中使用 SUM 聚合函数
- angular - 如何使用 Angular 在每次点击高级搜索时重置模式
- typescript - 在 webpack 中查询
- c# - 带有用户名身份验证的 WCF 中的异常
- python - 升级 brew 后 virtualenvwrapper 的问题
- security - 有什么方法可以检测特定浏览器扩展是否正在与服务器通信?
- php - 为什么 Google Analytics API for PHP 会忽略 2017-11-05 之前的日期