pandas - 使用 Excel 和 Pandas 探索时,.csv 中的样本数量不同
问题描述
总的来说,我是熊猫和数据科学的新手。我目前正在使用熊猫探索数据集。
我注意到通过用 Excel 打开它,它显示有 130.808 行,减去标题使它成为 130.807,但是如果我使用 pandas 打开同一个文件
df = pd.read_csv("data.csv", sep='|', header=0)
并调用 .shape 属性,它显示它只有 130.802 个样本。
如果我没有对数据集进行任何修改,其他 5 个在哪里消失了?
不确定它是否有任何区别,但我正在使用 Anaconda 发行版。
先感谢您!
解决方案
您需要检查这些值是否包含引号字符,如果没有,数据集中的值是否包含 lineterminator。
如果数据集中没有提供/包含引号字符,则值中的换行符可能导致程序认为这是一个新行,而不是框中的换行符
希望这可以帮助
推荐阅读
- unit-testing - 如何在单元测试中使用具有 .Net 互操作性的相对路径?
- php - 如何在前端操纵 Woocommerce 产品价格?
- python - TensorFlow 2 中的注意力层:我得到“TypeError:‘AdditiveAttention’对象不可迭代”
- java - 使用 Java 中的 Google API 获取 YouTube 频道信息
- javascript - iOS -WKWebView - 从本地主机目录/文件(.js 和资产)加载内容
- json - Rundeck 选项变量显示
- java - if 和 else 语句在 java 中的 onClick() 方法中不起作用
- node.js - 如何在 api 响应中给出自定义错误消息
- reactjs - 如何通过在 reactjs 中使用 react-data-grid 创建所需大小的网格?
- typescript - 在 TypeScript 中将导入的类与命名空间合并