amazon-web-services - Sagemaker 批量转换错误“模型容器无法响应 ping;确保 /ping 端点已实施并以 HTTP 200 状态响应”
问题描述
我的任务是通过 Sagemaker Batch Transform 进行大规模推理。
我遇到了很多问题,并通过搜索堆栈溢出来解决它们。但是,有一个问题仍然会导致麻烦。
当我同时使用 20 个 EC2 实例运行相同的代码和相同的数据集时,有时我会收到错误“模型容器无法响应 ping;请确保 /ping 端点已实现并以 HTTP 200 状态响应”,有时我不会吨。
我发现最令人沮丧的是,我已经没有为 /ping 做任何事情(见下面的代码)
@app.route("/ping", methods=["GET"])
def ping():
"""Determine if the container is working and healthy. In this sample container, we declare it healthy if we can load the model successfully."""
# health = ScoringService.get_model() is not None # You can insert a health check here
# status = 200 if health else 404
status = 200
return flask.Response(response="\n", status=status, mimetype="text/csv")
错误怎么可能仍然发生?
我从一些帖子中读到(例如,如何向 Sagemaker 端点添加健康检查? )说“ping 响应应在 2 秒超时内返回”。
如何增加 ping 响应超时?一般来说,我能做些什么来防止错误发生?
解决方案
推荐阅读
- java - 在 bean 上使用 @PostConstruct 对 @SqlGroup 进行 Spring 测试
- javascript - k6 脚本:如何解析文件信息以在 HTTP 查询中使用
- r - 指示行合并已更新
- scala - 如何在 Akka HTTP 中增加 `akka.http.server.parsing.max-method-length`?
- c# - 仅调用单个依赖方法的单元测试方法 - c#/xUnit/Moq
- google-drive-api - 协助 google.drive.files.watch web_hook 通知疑难解答
- swift - HERE Maps SDK iOS Swift 4 转弯导航 - 屏幕信息
- tk - 在基于 debian 的 Linux 上的 tkinter 中面临 overrideredirect(True) 方法的问题
- java - LocalDate 没有构造函数......我们如何创建没有构造函数的类?
- sql - SQL Server:将数据类型 nvarchar 转换为 datetime 时出错