python - 无法将 excel 行与 pandas 数据框行数匹配
问题描述
我试图对传递给熊猫数据框的文件中的 Unicode 字符进行编码。但是我在 Jupyter 笔记本中使用 df.column.value_counts() 获得的唯一行数与同一文件的 excel 行数不匹配(在删除重复值之后)。
我该如何解决这个问题?
我已经加载了一个文本文件(制表符分隔)并使用 encoding = 'ISO-8859-1' 将其转换为 pandas 数据框。数据框是使用其中一列的唯一行数为 66370 创建的。
当我在原始 csv 文件的所需列上应用“删除重复项”时(我使用 MS Excel 读取导出文件),唯一值的数量 = 66368。
这 2 个文件中有 2 个差异——Jupyter Notebook 中的 pandas 数据框——pandas 唯一行数(66370)和行数的 excel 版本(66368)。
我知道这可能是编码问题,但我无法解决。
有人可以帮忙吗?
df = pd.read_csv('csv_file.csv', encoding= 'ISO-8859-1')
df.column1.value_counts()
我期望在唯一 row_counts 和 df.column1.value_counts() 的 excel 版本中得到相同的结果。
实际结果显示这两种方法的行数差异为 2。
解决方案
\n
当某些行的内容中隐藏了 s时,也会出现此问题。所以编辑喜欢vim
在不同的行上显示它们,但根据数据框,它们实际上是单行。
推荐阅读
- selenium - 在空手道中调用另一个包含 webdriver 步骤的功能
- bash - 删除以#开头的行
- python - 如何使用 Lime 对时间序列进行分类
- amazon-sqs - SNS 消息的 MessageId 是否与对应的 SQS MessageId 相同?
- model - “真 U Φ”是有效的计算树逻辑公式吗?
- python - 在 Airflow 1.10.9 上运行 initdb 时出现 Sqlalchemy 错误
- mysql - Mysql:统计并返回不超过一定数量的分组记录
- sas - 如何从 SAS 中的单个变量复制特定观察结果?
- python - 通过使用“for”来增加 i 的值?
- firefox-addon-webextensions - 如何获取丢弃标签的网址..?