首页 > 解决方案 > 将 UTF-8 转换为 ASCII

问题描述

正确的答案是你不能。但是,我正在寻找一个有用而不是正确的答案。

垃圾邮件发送者将(甚至正确拼写)垃圾邮件 ASCII 关键字转换为不同的非 ASCII UTF-8 字符,典型(西方)人类很容易(并且错误地)误认为原始的 7 位 ASCII 垃圾邮件关键字。

我想要的是一个转换工具,它将执行与垃圾邮件发送者所做的相反的操作,错误地将 UTF-8 字符串转换回看起来相似的 7 位 ASCII 序列,看起来像垃圾邮件发送者想要我的垃圾邮件美国英语单词误读(尽管学究式地,UTF-8 不是来自 ASCII 子集)。

我正在寻找可以在电子邮件主题行中使用的内容。然后,我可以在花 5 分钟通过我的高速 110 波特声学链接下载网页或电子邮件之前将其关闭。

平台是通用 Linux 系统上常用的任何语言,例如运行 Raspbian 或 Ubuntu 的 Raspberry Pi。

标签: utf-8

解决方案


令人讨厌的是,答案仍然是你做不到。

基本思想是合理的,但人类喜欢让生活变得复杂,所以一些字母在不同语言之间的形状有很大差异

这意味着对于给定的字符序列,不一定清楚该序列应该类似于哪个美国英语单词。

此外,即使您可以可靠地减少字符序列,英语也与许多使用自己独特的字母变体的欧洲语言密切相关。

例如,减少“Høst Fæst!” 到“主机快!” (也可能)会导致您错误地将来自明尼苏达州的堂兄邀请您参加感恩节的略带洋泾浜的挪威电子邮件标记为托管服务提供商的垃圾邮件。

当然,调用这些东西中的任何一个都是过河取水:

只需考虑(全 ASCLI)主题行“PilIs!PiIls!PiIIs!”。


推荐阅读