pandas - 使用 Dataflow 的 Pandas read_gbq 初始化错误
问题描述
我一直在使用使用 pandas 库的 Python 运行数据流作业。它突然开始失败并出现以下错误:
文件“/usr/local/lib/python2.7/dist-packages/pandas_gbq/auth.py”,第 305 行,在 _try_credentials client = bigquery.Client(project=project_id, credentials=credentials)
文件“/usr/local/lib/python2.7/dist-packages/google/cloud/bigquery/client.py”,第 161 行,在init self._connection = Connection(self, client_info=client_info)
文件“/usr/local/lib/python2.7/dist-packages/google/cloud/bigquery/_http.py”,第 33 行,在init super(Connection, self) 中。初始化(客户端,client_info)
TypeError: init () 正好接受 2 个参数(3 个给定)
这一步失败了:
import pandas as pd
data = pd.read_gbq(query=query, project_id=project, dialect='standard', private_key=credentials)
我的设置文件如下所示:
install_requires=[
'google-cloud-storage==1.11.0',
'requests==2.19.1',
'urllib3==1.23',
'pandas-gbq==0.6.1',
'pandas==0.23.4',
'protobuf==3.6.0'
]
这是我本地的相同版本,代码正在运行。当作业开始失败时,尚未对作业进行任何更改。它在本地成功运行,但是当我使用 Dataflowrunner 运行时我看到了这个问题。我认为这是一个依赖问题。我正在使用的任何软件包版本是否存在记录在案的问题?或者我需要将特定的包版本添加到我的设置文件中吗?
解决方案
我必须将 BigQuery 版本添加到我的设置文件中。
'google-cloud-bigquery==1.6.0'
根据 Python SDK 2.5 的 Google文档,Dataflow 工作人员已经安装了 BigQuery 0.25.0。由于我之前没有指定版本,因此我认为这就是我的工作正在运行的内容。如果该版本的 BigQuery 存在问题,我仍然不确定为什么该错误最近才开始发生。无论如何,指定 1.6.0 解决了这个问题。
推荐阅读
- javascript - 拉伸 svg 路径以适应内容
- javascript - jQuery自动刷新页面安排在时钟时间
- symfony - 多对多原则
- java - 为我正在使用的每个项目(来自数据库)创建 Spring @Repository 和 @Controller
- python - 使用flask和sqlalchemy时SQLite没有这样的列错误
- javascript - 如何使用 socket.io 向特定客户端发送通知?
- python-3.x - 函数什么都不返回,但我不知道我哪里做错了
- javascript - “this”关键字在类主体之外是不允许的
- android - 我们如何将 Flutter App 导入 Unity 3d
- java - 为什么访问数据库时控制台没有输出?