首页 > 解决方案 > Informatica - 如果需要,是否可以通过使用通过命令任务调用的程序来确定和转换文件编码?

问题描述

我们公司处理来自不同市场和多种语言的发票数据。通常,数据以 .txt 或 .dat 文件的形式提供。这些文件中发票数据的格式或布局在许多市场中可能是通用的。例如,发票编号在巴西文件中的放置将与俄罗斯文件或英国文件相同。源文件的编码可能会有所不同。来自英国的文件可能被编码为 ASCII,来自巴西的文件 ANSI 和来自俄罗斯的 UTF-8 文件。这不是一成不变的。我们的目标数据库配置为 UTF-8。

由于每个文件之间的数据布局基本相同,我们希望尽可能通过一个 Informatica 工作流程处理所有文件,并在需要时在运行时转换文件编码。

我不是 Java 开发人员,但我想到是否可以从命令任务中调用 jar 来检查文件编码并在需要时运行转换。

还是我应该寻找另一种解决方案?

标签: encodingasciietlinformaticaansi

解决方案


这个想法是“将所有非 UTF 文件转换为 UTF-8,它是最高集并且可以处理几乎所有字符集。因此,请按照以下步骤操作 -

  1. 用于file --mime-encoding inp_file检查编码
  2. 使用 powershesll(链接 - superuser.com/questions/1163753/...)或 UNIX/LINUX shell(链接 - stackoverflow.com/questions/64860/...)

推荐阅读