首页 > 解决方案 > 如何在文本文件中查找和替换框字符?

问题描述

我有一个大文本文件,我将通过编程方式处理它,但遇到了散布在整个文件中的特殊字符的问题。该文件太大,无法扫描以查找特定字符。大多数其他不需要的特殊字符我已经能够使用一些正则表达式模式摆脱。但是有一个方框字符,类似于“□”。当我尝试从实际文本文件中复制字符并将其传递到此处时,我得到“�”,因此该框的示例来自 Windows 字符映射,其中包含代码“U+25A1”,我不确定如何解释或者如果它是我可以用于正则表达式搜索的东西。

有谁知道我如何在 UTF-8 编码文件中搜索类似于“□”的框符号?

编辑:

以下是文本文件中的示例:

“�当花苞出现时修剪棕榈树,或延迟修剪到棕榈树开花后,以防止棕榈花毛虫的侵扰。留下前五行。”

唯一的问题是,如原帖中所述,正方形被转换为菱形问号。

标签: regextextutf-8special-characters

解决方案


虽然您可以使用十六进制等效项,但尚不清楚您在哪里以及如何搜索:

\x{25A1}

示例

https://regex101.com/r/b84oBs/1


推荐阅读