/Titanic

交通事故生存因素分析 – 基于泰坦尼克号历史数据

Primary LanguageJupyter Notebook

Titanic

本次分析探索了存活情况与仓位等级、性别、年龄、登船地点之间可能存在的关系,以及性别与仓位等级、船费与登船地点之间的关系。依据数据得出的结论为——仓位等级越高存活率越高;女性比男性存活率高;儿童存活率比成年人高;瑟堡登船的存活率比其他两个地方高;而三等舱的男性人数比其他所有仓位的都高,但不管哪一个仓位,女性的存活率都远大于男性;以及瑟堡的平均费用最高,皇后镇的最便宜。 但是由于本数据样本并非所有乘客的数据都齐全,有些数据存在空值,所以可能存在一些统计学上的偏差。不过由于我们只针对泰坦尼克号的乘客进行分析,该样本基本包含了所有乘客,因此得出的分析结论具有一定的代表性,可以认为是正确的。当然在统计的过程中,采取的一些方法肯定会对真实的情况造成一定偏差,例如在处理空值时,我是直接用dropna()丢弃了,虽然由于数目较少不会造成大的影响,但是偏差肯定是存在的。 另外还有很多其他的因素也有可能影响到存活率但是我们并没有相关数据,比如说当日的水温,乘客是否会游泳等,这些都会影响到存活率。 综上,本文只在结合该样本数据的情况下,经合理分析得出相关结论,大部分结论具有相关性,但不排除个别结论与真实情况相距甚远。