dataframe - 将文本文件读取到 Pyspark Dataframe 时出错
问题描述
我在 PySpark (1.6.0) 中运行如下基本的 pyspark 程序,但出现错误。根据 PySpark 文档https://spark.apache.org/docs/1.6.0/sql-programming-guide.html,语法似乎是正确的,但仍然不确定为什么它说'SQLContext'对象没有属性'文本文件'
from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
if __name__ == '__main__':
conf = SparkConf().setAppName('TestingDF')
sc = SparkContext(conf=conf)
sqlc = SQLContext(sc)
lines = sqlc.textFile('/user/cloudera/practice4/question3/customers').map(lambda x: x.split(','))
我得到以下错误
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'SQLContext' object has no attribute 'textFile'
'/user/cloudera/practice4/question3/customers' 基本上是我通过 sqoop 命令从 mysql 导入到 HDFS 的 sql 表
Python 版本是 2.6.6(基本上我在 cloudera Quickstart VM 5.13 上测试所有这些)
解决方案
推荐阅读
- java - BasicJavaAlgorithm_BiggieSize
- r - Mac终端和r显示不同的gdal版本
- python - 使用 python 从 .txt 文件中提取信息,并按客户和产品汇总数字
- clang - 铸造`[
x i8]*` 到 `i8 *` - shell - 从ubuntu中的csv中删除重复的列
- c++ - 无法让 SDL2 在 Windows 10 上与 MinGW、VSCode 和 CMake 一起使用
- powershell - 在应用程序崩溃的信息亭模式下停止重启循环
- javascript - 如何知道lightbox2是否已加载或关闭
- php - 如何更改下拉菜单以在单击而不是悬停时打开?
- r - 在R中cbind tibble和matrix时不一致