python - UnicodeDecodeError:“unicodeescape”编解码器无法解码位置 10752-10753 中的字节:截断 \uXXXX 转义
问题描述
当我尝试读取数据时出现此错误
UnicodeDecodeError:“unicodeescape”编解码器无法解码位置 10752-10753 中的字节:截断 \uXXXX 转义
我试图将 ar 放在数据之前以将其转换为原始字符串,但我没有工作。
有什么建议吗??
读取数据
pd.set_option('display.max_colwidth',100) # extend Columns display lenght to 100 Char
data = pd.read_csv(r'de_full_1.tsv',sep="\t", encoding= "unicode_escape")
data.head(100)
提到的行是:
10751 GerSenNeg429 负 Im “太阳谷” geht die Sonne unter。10752 GerSenNeg430 阴性 Leere Hallen, tiefe Bunker 10753 GerSenNeg431 阴性 Ein paar Topfpflanzen kümmern in der Zentralpforte der Hanwha-Q-Cells AG vor sich hin。10754 GerSenNeg432 负 Der Betonbau, der wirkt wie ein verglaster Bunker, ist Endstation für Anfragen。
解决方案
我不能完全确定,因为您没有在提到的字节位置周围提供文件的内容,但我假设数据只是\
自由使用字符的常规文本。
但是, usingencoding="unicode_escape"
表示文件正在使用\uXXXX
序列对 Unicode 字符进行编码(例如\u03A8
,对于 character Ψ
),因此如果\u
或\U
以另一种方式使用,与有效的 Unicode 转义序列(例如 string C:\Users\Somebody
)不匹配,则会出现错误。
你encoding
可能应该是一个不同的。如果没有看到您的文件,很难说哪个,但很可能它应该是utf_8
,ascii
或latin_1
.
推荐阅读
- c++ - 当我发送十六进制值 0x00 时,有没有办法在字符串中获取字符而不是空点?
- sql-server - 如何允许 NULL 值(将 pandas 数据框加载到 MS SQL Server 中)
- gitlab-ci - Gitlab-CI:全局定义规则并在一个阶段本地覆盖它们
- javascript - 删除具有 JQuery focusout 侦听器的单元格的表会停止使用相同侦听器的所有其他表
- android - Compose 中的自定义图标
- android - 如何在运行时更改语言而不重新创建活动
- python - 如何解决未经授权的错误烧瓶?
- java - 查询为空
- directory - QSYSDIR 中的 QAXIS10HT - 它在哪里?
- php - 如何防止在此功能中进行双重检查?