首页 > 解决方案 > AttributeError:“str”对象没有属性“name”PySpark

问题描述

我创建了列表并尝试将其分配给 StructType() 但出现错误:

AttributeError: 'str' object has no attribute 'name'

我的代码:

from pyspark.sql import SparkSession
import logging
from pyspark.sql.types import *
from pyspark.sql.functions import to_timestamp
from pyspark.sql.functions import udf
from pyspark.sql.functions import lit
from pyspark.sql.functions import year, month, dayofmonth
from pyspark.context import SparkContext
from pyspark.sql import SQLContext
import argparse

logging.basicConfig(level=logging.INFO,filename = 'parquet.log')
logger = logging.getLogger(__name__)

parser = argparse.ArgumentParser()
parser.add_argument('--schema_py', '--list', nargs='+', required=True, dest='schema_py', help='Scheam def')

args = parser.parse_args()

schemaField = args.schema_py
print(type(schemaField))   #It will print <class 'list'>

schema = StructType(schemaField) # On this line facing issue
print(type(schema))

输出

$ python tst.py --schema_py 'StructField('col1', StringType(), True),StructField('col2', StringType(), True),StructField('col3', StringType(), True),StructField('col4', StringType(), True),'

<class 'list'>
Traceback (most recent call last):
  File "brrConvertParquet.py", line 41, in <module>
    schema = StructType(schemaField)
  File "/home/sysbrrd/anaconda3/lib/python3.6/site-packages/pyspark/sql/types.py", line 484, in __init__
    self.names = [f.name for f in fields]
  File "/home/sysbrrd/anaconda3/lib/python3.6/site-packages/pyspark/sql/types.py", line 484, in <listcomp>
    self.names = [f.name for f in fields]
AttributeError: 'str' object has no attribute 'name'

请帮助我了解这里出了什么问题。

标签: pythonpython-3.xpyspark

解决方案


我看到的问题是:

  1. 您正在将 a 传递给str调用StructType(),而不是一个列表,[StructField(),]或者因为您nargs='+'可能正在传递一个字符串列表。即 ["StructField('col1', StringType(), True)", "StructField('col2', StringType(), True)", "StructField('col3', StringType(), True)", "StructField('col4', StringType(), True)"]
  2. 如果您真的想将字段作为 cmd arg 接收,那么您应该考虑验证此 arg 并将其转换为所需的 python 类型。您可以查看jsonpickle或。evalexec

除此之外,其他一切都应该工作。

self.names = [f.name for f in fields]中断是因为fields它是一个str而不是一个列表StructField,如果它是一个StructField预期的列表,那么f.name调用应该可以正常工作:-)

我希望这有帮助。


推荐阅读