首页 > 解决方案 > DataflowRunner 上的 Apache Beam 作业永远不会启动,也不会生成日志——仅在某些机器上?错误 10061

问题描述

我正在尝试从 Powershell 运行一个简单的 Beam 管道。我使用的服务帐户可以访问它需要的所有 GCS 存储桶。这在我的个人笔记本电脑上工作得很好,但在我的工作笔记本电脑上,我得到了下面的 INFO 输出,并且该工作从未出现在 Dataflow 控制台中,也没有在 GCP 或我能找到的任何其他地方生成日志。

我只是想知道是什么导致了一台笔记本电脑而不是另一台笔记本电脑?

(virtualenv) PS C:\apps\beam> python -m apache_beam.examples.wordcount --input gs://dataflow-samples/shakespeare/kinglear.txt --output gs://dw_json/counts --runner DataflowRunner --project 'inspired-studio-111111' --region 'us-west1' --temp_location gs://dw_json_temp/tmp/
INFO:apache_beam.internal.gcp.auth:Setting socket default timeout to 60 seconds.
INFO:apache_beam.internal.gcp.auth:socket default timeout is 60.0 seconds.
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token
INFO:oauth2client.transport:Attempting refresh to obtain initial access_token
INFO:oauth2client.client:Refreshing access_token

编辑我能够添加一些日志记录来输出回溯。我发现在验证管道选项时,应用程序无法访问 GCS 存储桶

https://www.googleapis.com/storage/v1/b/dataflow-staging-us-central1-9b3b14cdbfe093a43e2e0e83d1f47d1e?alt=json

[WinError 10061] 由于目标机器主动拒绝,无法建立连接

我在本地 json 密钥中使用的服务帐户对此存储桶具有完全访问权限。

有什么想法在这里阻塞吗?

标签: google-cloud-dataflowapache-beam

解决方案


我假设gsutil ls gs://dw_json/counts对你有用?我想知道它是否可能与https://issues.apache.org/jira/browse/BEAM-2264类似的问题这里没有太多可做的;也许您可以添加一些额外的日志记录以查看它的进展情况。


推荐阅读