pentaho - Pentaho:恢复转型
问题描述
最近我遇到了一个问题。导致它的转换具有“插入/更新”步骤,该步骤对具有超过 2 亿条记录的表进行操作。在与数据库服务器的连接丢失并且我手动重新运行转换后,可以在日志窗口中看到该步骤重新检查了它在连接丢失之前已经下载的记录。我知道这是该步骤的逻辑行为。但是我没有机会下载所有的记录。有时该过程在 1500 万条记录后停止,有时在 5000 万条记录后停止。如何处理这个问题?我考虑了主键值的自动递增并在连接丢失后保存最后一个主键值。或者按主键对目标表的记录进行排序,找到间隙并使用间隙中的值恢复加载。
解决方案
Pentaho 有检查点,您可以为作业启用这些检查点,这些检查点允许您在因任何原因停止的检查点处重新启动作业。https://help.pentaho.com/Documentation/8.2/Products/Data_Integration/Data_Integration_Perspective/Job_Checkpoints
但是,这不是转换级别可用的东西。您关于使用序列或自动递增字段的想法可能是您最好的选择。
推荐阅读
- machine-learning - skimage.filters.threshold_mean 的返回类型不应该是 0-255 吗?
- swift - 带有 Cognito 身份验证配置问题的 AWSS3TransferUtility 上传?
- python - 将字典条目转换为在值之间使用空格格式化的单个字符串
- java - 我必须检查回文字符串。当我输入具有数值的字符串时,我得到了错误的答案。例如“0P”
- windows - 告诉 git pull 忽略名为 con.dat 的文件,因为它无法在 Windows 上检出
- spring-boot - Eureka Server 中没有可用的实例
- javascript - 加载/替换 data-src 中指定的 img 或 video
- typescript - 无序地解析 JSON 打字稿
- node.js - NodeJS - 在同一台服务器上使用套接字和表达
- r - 撞车和受伤的数量?