apache-spark - UserWarning:pyarrow.open_stream 已弃用,请使用 pyarrow.ipc.open_stream 警告
问题描述
我正在spark 2.4.2
本地运行pyspark
NLP 中的 ML 项目。Pipeline 中的部分预处理步骤涉及使用pandas_udf
通过pyarrow
. 每次我使用预处理的火花数据框进行操作时,都会出现以下警告:
UserWarning: pyarrow.open_stream 已弃用,请使用 pyarrow.ipc.open_stream warnings.warn("pyarrow.open_stream 已弃用,请使用"
我尝试更新pyarrow
但未能避免警告。我的 pyarrow 版本是 0.14。我想知道这个警告的含义以及是否有人找到了解决方案?非常感谢您提前。
火花会话详细信息:
conf = SparkConf(). \
setAppName('map'). \
setMaster('local[*]'). \
set('spark.yarn.appMasterEnv.PYSPARK_PYTHON', '~/anaconda3/bin/python'). \
set('spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON', '~/anaconda3/bin/python'). \
set('executor.memory', '8g'). \
set('spark.executor.memoryOverhead', '16g'). \
set('spark.sql.codegen', 'true'). \
set('spark.yarn.executor.memory', '16g'). \
set('yarn.scheduler.minimum-allocation-mb', '500m'). \
set('spark.dynamicAllocation.maxExecutors', '3'). \
set('spark.driver.maxResultSize', '0'). \
set("spark.sql.execution.arrow.enabled", "true"). \
set("spark.debug.maxToStringFields", '100')
spark = SparkSession.builder. \
appName("map"). \
config(conf=conf). \
getOrCreate()
解决方案
此警告来自您的 版本pyspark
,它使用了已弃用的pyarrow
.
但是一切正常,所以您可以暂时忽略警告,或者更新您的 pyspark 版本(在最新版本中,他们修复了已弃用的 pyarrow 函数的使用)
推荐阅读
- haskell - Haskell,找到具有最小第二个元素的元组,如果有两个相同的第二个元素值的元组,则用第一个元素排序
- c++ - 如何以简单的方式更改堆上 QVector 数组中包含的对象的值?
- python - 正则表达式查找带有下划线和可选扩展名的文件
- google-cloud-platform - Google Cloud Storage 网络托管:将 http 重定向到 https
- google-sheets - 我可以使用电子表格更新 Google 表单问题吗?
- reactjs - TypeError:compiler.plugin 不是 ReactLoadablePlugin.apply 的函数
- python - 如何在 DRF 模型字段中仅显示和使用日期时间中的天数并发送请求以填充该字段
- python - 使用 SELECT 语句执行值
- apache - 403 Forbidden In Asp.Net Core app with Apache
- sql - isnull 和列创建