首页 > 解决方案 > 为什么我们需要删除泰坦尼克号测试数据集中的“PassengerID”

问题描述

嘿伙计们,我有一个关于泰坦尼克号 kaggle 数据集的快速问题。链接在这里:

    https://github.com/riederleeDEV/Titanic-kaggle- 
    competition/blob/master/titanic-solution.ipynb
    Notice that In[87] drop the "PassengerID" in the test data set

我的意思是为什么我们需要放弃它?

标签: data-science

解决方案


因为乘客 id 没有添加任何值来确定乘客的生存状态。如果你用生存状态绘制乘客 ID,你不会发现它们之间有任何相关性。从常识来看,它就像任何节目/航班的票号,只不过是一个数字而已。


推荐阅读