google-translate - 将 1GB 的文本翻译成英文
问题描述
我正在寻找适合我用例的语言翻译 API/解决方案。
我的用例如下:
- 数据是 1 GB 的免费非结构化文本,大部分以世界通用语言(法语、西班牙语、德语、俄语、韩语)编写。每段文本的语言都是已知的。
- 我们可以假设文本在语法上是正确的并且由完整的句子组成,但包含一些不常见的单词,例如化合物名称。
- 文本必须翻译成英文。
- 该解决方案必须至少比谷歌翻译便宜 10 倍,谷歌翻译每 100 万个字符收费 20 美元。
- 我愿意用谷歌的一些质量来换取成本效益。谷歌、雅虎、微软、Yandex、Online-Translator.com 都足够好,只是太贵了。
我有一台 16 CPU 的机器供我使用,所以离线翻译也是一种选择。
有什么建议么?
解决方案
对于您的数量,机器翻译的价格从每 100 万个符号 3 美元到 25 美元不等(有些异常值,例如 ModernMT,每 1000 个字的成本为 eu)。
如果你想牺牲一点质量,你可以选择我们所说的“优化引擎”——性能在前 5% 以内但价格最低的引擎。
您可以在我们 2018 年 7 月的机器翻译报告中找到更多详细信息。
然后,您需要知道哪些引擎支持您的语言对并处理它们的 API、请求限制和配额。
您可以使用Intento API 来获取您的语言对的引擎列表。然后,您可以在异步模式下使用此 API ,然后 Intento 会处理所有限制。但是我不确定它是否会处理 1G 文件,但欢迎您尝试。
为了避免修改 API 请求,我建议使用CLI。
推荐阅读
- c# - 从 c# 中的任何给定类型查找 .cs 文件路径
- java - 如何在应用程序中保存离线服务器数据
- flutter - 如何以正确的方式告诉 Flutter 一个变量可以为空(Null Safety)?
- php - 合并数组以进行 wordpress 查询
- excel - 在另一张表中查找值以填充表格
- kubernetes-ingress - 如何通过 nginx 入口控制器公开我的 EKS 微服务
- bison - 如何测量解析时间?
- bash - 如何在不知道文件名但知道其扩展名的情况下使用 shell 脚本读取文件
- javascript - 循环只提供最后收集的值
- java - 如何在android seekbar中获得这个椭圆形状?