python - 使用 pandas 读取 CSV 文件时出现编码错误
问题描述
我有一个 1.7GB 的 CSV 文件,其中包含大约 2000 万个观察值和 10 个要使用read_csv()
. 但是,这样做时,我收到以下错误消息:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 1144: invalid continuation byte
我尝试了这 2 个修复,但对于第一个修复,我什至无法在记事本或 Excel 中打开我的 CSV 文件,因为它太大了。对于第二个修复,我需要知道源编码,如果不打开文件我不知道如何找出它......这太大而无法打开。
这个问题有什么解决方法吗?
解决方案
推荐阅读
- memory - 在没有足够内存的情况下运行 Snakemake 的最佳实践
- android - android studios(windows)中的flutter应用程序到iOS的flutter应用程序(.ipa)
- laravel - 将数组作为属性传递给刀片自定义组件
- c# - 如何在 C Sharp 中获取当前活动窗口的图标?
- jpa - 带有 WIldfly24 的 JPA 设置抛出 NullPointerException
- reactjs - 提交按钮必须重定向到反应 js 中选定的单选按钮页面
- azure - 在 Pyspark 中从列表中迭代地移动多个文件
- node.js - GraphQL:嵌套查询返回错误数据
- c# - C# 修改类属性值
- spring - 如何在@TestFactory 的每个测试中创建不同的 Spring 上下文?