首页 > 解决方案 > 使用 pandas 读取 CSV 文件时出现编码错误

问题描述

我有一个 1.7GB 的 CSV 文件,其中包含大约 2000 万个观察值和 10 个要使用read_csv(). 但是,这样做时,我收到以下错误消息:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 1144: invalid continuation byte

我尝试了这 2 个修复,但对于第一个修复,我什至无法在记事本或 Excel 中打开我的 CSV 文件,因为它太大了。对于第二个修复,我需要知道源编码,如果不打开文件我不知道如何找出它......这太大而无法打开。

这个问题有什么解决方法吗?

标签: pythonpandascsvencoding

解决方案


推荐阅读