首页 > 解决方案 > UnicodeDecodeError:“unicodeescape”编解码器无法解码位置 10752-10753 中的字节:截断 \uXXXX 转义

问题描述

当我尝试读取数据时出现此错误

UnicodeDecodeError:“unicodeescape”编解码器无法解码位置 10752-10753 中的字节:截断 \uXXXX 转义

我试图将 ar 放在数据之前以将其转换为原始字符串,但我没有工作。

有什么建议吗??

读取数据

pd.set_option('display.max_colwidth',100)                                       # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)

提到的行是:

10751 GerSenNeg429 负 Im “太阳谷” geht die Sonne unter。10752 GerSenNeg430 阴性 Leere Hallen, tiefe Bunker 10753 GerSenNeg431 阴性 Ein paar Topfpflanzen kümmern in der Zentralpforte der Hanwha-Q-Cells AG vor sich hin。10754 GerSenNeg432 负 Der Betonbau, der wirkt wie ein verglaster Bunker, ist Endstation für Anfragen。

行的图片

第一行

标签: pythonunicode-escapes

解决方案


我不能完全确定,因为您没有在提到的字节位置周围提供文件的内容,但我假设数据只是\自由使用字符的常规文本。

但是, usingencoding="unicode_escape"表示文件正在使用\uXXXX序列对 Unicode 字符进行编码(例如\u03A8,对于 character Ψ),因此如果\u\U以另一种方式使用,与有效的 Unicode 转义序列(例如 string C:\Users\Somebody)不匹配,则会出现错误。

encoding可能应该是一个不同的。如果没有看到您的文件,很难说哪个,但很可能它应该是utf_8,asciilatin_1.


推荐阅读