encoding - Informatica - 如果需要,是否可以通过使用通过命令任务调用的程序来确定和转换文件编码?
问题描述
我们公司处理来自不同市场和多种语言的发票数据。通常,数据以 .txt 或 .dat 文件的形式提供。这些文件中发票数据的格式或布局在许多市场中可能是通用的。例如,发票编号在巴西文件中的放置将与俄罗斯文件或英国文件相同。源文件的编码可能会有所不同。来自英国的文件可能被编码为 ASCII,来自巴西的文件 ANSI 和来自俄罗斯的 UTF-8 文件。这不是一成不变的。我们的目标数据库配置为 UTF-8。
由于每个文件之间的数据布局基本相同,我们希望尽可能通过一个 Informatica 工作流程处理所有文件,并在需要时在运行时转换文件编码。
我不是 Java 开发人员,但我想到是否可以从命令任务中调用 jar 来检查文件编码并在需要时运行转换。
还是我应该寻找另一种解决方案?
解决方案
这个想法是“将所有非 UTF 文件转换为 UTF-8,它是最高集并且可以处理几乎所有字符集。因此,请按照以下步骤操作 -
- 用于
file --mime-encoding inp_file
检查编码 - 使用 powershesll(链接 - superuser.com/questions/1163753/...)或 UNIX/LINUX shell(链接 - stackoverflow.com/questions/64860/...)
推荐阅读
- python - 从返回的数据中删除索引
- java - 如何从 Java 执行 EXECUTE IMMEDIATE?
- google-cloud-platform - 如何在“gcloud builds”中使用“gcloud deployment-manager deployments”在 GCP 上有完整的 CI/CD 管道?
- html - 如何避免滚动条堆叠
- shortest-path - Dijkstra-添加新的verticle
- reactjs - 如何使用 componentWillUnmount 停止循环动画?
- c++ - 如何将动态和静态二维数组作为空指针传递?
- excel - 将用户输入与两列进行比较,并从第三个预定义列返回值
- jpa - JPA:如何通过妥协的 where 子句获得结果
- sql - 检查地图上的点(经纬度)是否在多边形内