首页 > 解决方案 > 无法将 excel 行与 pandas 数据框行数匹配

问题描述

我试图对传递给熊猫数据框的文件中的 Unicode 字符进行编码。但是我在 Jupyter 笔记本中使用 df.column.value_counts() 获得的唯一行数与同一文件的 excel 行数不匹配(在删除重复值之后)。

我该如何解决这个问题?

我已经加载了一个文本文件(制表符分隔)并使用 encoding = 'ISO-8859-1' 将其转换为 pandas 数据框。数据框是使用其中一列的唯一行数为 66370 创建的。

当我在原始 csv 文件的所需列上应用“删除重复项”时(我使用 MS Excel 读取导出文件),唯一值的数量 = 66368。

这 2 个文件中有 2 个差异——Jupyter Notebook 中的 pandas 数据框——pandas 唯一行数(66370)和行数的 excel 版本(66368)。

我知道这可能是编码问题,但我无法解决。

有人可以帮忙吗?

df = pd.read_csv('csv_file.csv', encoding= 'ISO-8859-1')
df.column1.value_counts()

我期望在唯一 row_counts 和 df.column1.value_counts() 的 excel 版本中得到相同的结果。

实际结果显示这两种方法的行数差异为 2。

标签: pythonpython-3.xpandasunicode

解决方案


\n当某些行的内容中隐藏了 s时,也会出现此问题。所以编辑喜欢vim在不同的行上显示它们,但根据数据框,它们实际上是单行。


推荐阅读