首页 > 解决方案 > 使用 Excel 和 Pandas 探索时,.csv 中的样本数量不同

问题描述

总的来说,我是熊猫和数据科学的新手。我目前正在使用熊猫探索数据集。

我注意到通过用 Excel 打开它,它显示有 130.808 行,减去标题使它成为 130.807,但是如果我使用 pandas 打开同一个文件 df = pd.read_csv("data.csv", sep='|', header=0) 并调用 .shape 属性,它显示它只有 130.802 个样本。

如果我没有对数据集进行任何修改,其他 5 个在哪里消失了?

不确定它是否有任何区别,但我正在使用 Anaconda 发行版。

先感谢您!

标签: pandasdata-analysis

解决方案


您需要检查这些值是否包含引号字符,如果没有,数据集中的值是否包含 lineterminator。

如果数据集中没有提供/包含引号字符,则值中的换行符可能导致程序认为这是一个新行,而不是框中的换行符

希望这可以帮助


推荐阅读