google-cloud-platform - AI 平台无详细信息 - 当前尝试发生内部错误
问题描述
我正在使用自定义容器运行超参数调整作业。当我以少量步骤运行作业时,一切正常。问题在于更多的步骤(这意味着更长的工作) - 它们以信息量不大的消息“当前尝试发生内部错误”结束。
我有3个怀疑:
我的机器配置不是最优的——我的工作是用 numpy 进行大量计算。我注意到主机、参数服务器和工作人员的 CPU 使用率在所有试验中都在 100% 左右。老实说,我希望它 100% 仅适用于工人(或 100% 仅适用于 master,因为我不进行分布式培训)。所以这意味着我不太明白这些不同的机器类型是如何用于超参数调优的。我无法找到有关它的任何详细资源。
中间数据每隔几步保存一次。可能是我存的太多了?有没有办法检查机器的存储使用情况?
Google 基础架构存在问题。
下面是我的配置文件的开头。
trainingInput:
scaleTier: CUSTOM
masterType: n1-highcpu-16
workerType: n1-highcpu-16
parameterServerType: n1-standard-4
evaluatorType: n1-standard-4
workerCount: 4
parameterServerCount: 1
evaluatorCount: 1
hyperparameters:
goal: MINIMIZE
hyperparameterMetricTag: "cumulative_regret"
maxTrials: 108
maxParallelTrials: 4
enableTrialEarlyStopping: False
algorithm: GRID_SEARCH
解决方案
推荐阅读
- flutter - 如何在 Flutter 中处理动态生成的 ListView 的选定项
- node.js - AWS Codebuild 节点版本更新不起作用
- reactjs - 如何使用 KotlinJS 和 React 提交表单?
- webpack - “编译”参数必须是 Office 加载项中编译错误的实例
- python - 从python函数分配可变数量的返回的优雅方法
- azure-data-explorer - KQL:按时移聚合行并获取最近行的值
- java - 验证 Java POJO 中的字段值
- oracle - 获取 Oracle 表中最后更新的行
- oracle - 如何在查询结果中显示列名?
- python - 网络上的Python套接字ipv6不起作用