首页 > 解决方案 > 将文本文件读取到 Pyspark Dataframe 时出错

问题描述

我在 PySpark (1.6.0) 中运行如下基本的 pyspark 程序,但出现错误。根据 PySpark 文档https://spark.apache.org/docs/1.6.0/sql-programming-guide.html,语法似乎是正确的,但仍然不确定为什么它说'SQLContext'对象没有属性'文本文件'

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext

    if __name__ == '__main__':
            conf = SparkConf().setAppName('TestingDF')
            sc = SparkContext(conf=conf)
            sqlc = SQLContext(sc)
            lines = sqlc.textFile('/user/cloudera/practice4/question3/customers').map(lambda x: x.split(','))

我得到以下错误

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'textFile'

'/user/cloudera/practice4/question3/customers' 基本上是我通过 sqoop 命令从 mysql 导入到 HDFS 的 sql 表

Python 版本是 2.6.6(基本上我在 cloudera Quickstart VM 5.13 上测试所有这些)

标签: dataframeapache-sparkpyspark

解决方案


推荐阅读