data-science - 为什么我们需要删除泰坦尼克号测试数据集中的“PassengerID”
问题描述
嘿伙计们,我有一个关于泰坦尼克号 kaggle 数据集的快速问题。链接在这里:
https://github.com/riederleeDEV/Titanic-kaggle-
competition/blob/master/titanic-solution.ipynb
Notice that In[87] drop the "PassengerID" in the test data set
我的意思是为什么我们需要放弃它?
解决方案
因为乘客 id 没有添加任何值来确定乘客的生存状态。如果你用生存状态绘制乘客 ID,你不会发现它们之间有任何相关性。从常识来看,它就像任何节目/航班的票号,只不过是一个数字而已。
推荐阅读
- jquery - Meterial Design Lite 不适用于 jquery ajax 请求
- c++ - 是否可以在 C++ 中创建构造函数数组?
- javascript - 画布转 PDF、HTML、Konva.js
- javascript - 使用 JavaScript 在 html 中显示 python 结果 | 蟒鳗
- javascript - 角等待服务响应
- javascript - 在所有 ios 设备和 safari 浏览器中,在新选项卡中打开会重定向到基本 url,而不是重定向到预期的路由 (Angular)
- ansible - 使用 $ 的 Ansible 查找 env 并注入 jj2 模板不起作用
- node.js - Azure 函数临时存储 | 节点
- java - java中NIO的异常处理
- python - 如何在循环中将数据框导出为 CSV