python - 转换熊猫数据框中所有非显示字符的最佳方法是什么?
问题描述
我正在将数据dataframe
从 Excel 工作表加载到 pandas 中,并且我想转换的许多列中有很多非显示字符。
最普遍的是在收缩中使用撇号;例如doesn't
,结果为doesn’t
.
过去我使用过:
str.encode('ascii', errors='ignore').decode('utf-8')
但这需要我知道我需要修复哪些列。
在这种情况下,我有 103 列,每列都可能包含此类问题或其他类型的问题。
我正在寻找一种方法来替换整个dataframe
.
有没有一种快速简便的方法可以在整个过程中执行此操作,dataframe
而无需将每一列传递给函数?
解决方案
在阅读 excel 时,您应该添加encoding='utf-8'
df = pd.read_excel('App Stuff.xlsx', encoding='utf-8')
或使用encoding='unicode-escape'
推荐阅读
- amazon-web-services - 如何在 AWS 中备份 IAM 用户
- android - 从子片段更新操作栏标题
- javascript - 我将如何使用 for 循环而不是使用 [...Array].map() 方法重写此代码?
- spring - 自定义招摇文档/我招摇设置在哪里?
- sql - 在 Oracle 中将带时区的 Varchar 转换为时间戳
- c# - 使用 C# 在 oData 客户端中使用带有延续的 where 子句
- printf - 运行时 c/c++ 项目中的 eclipse 错误。首先打印的输出将为空白。我们进入
- mysql - DATEDIFF(YEAR,C.END_DT,GETDATE()) 的 MySQL Workbench 版本是什么?
- python - 如何获取图像并将其加载到与图像名称相同的变量名称中
- php - 使用 fopen 创建文件