본문 바로가기
Tech/MachineLearning

[머신러닝 기초] 타이타닉 생존율 분석 - EDA #3 형제자매,배우자(SibSp) 확인

by 타이호 2019. 10. 10.
반응형

타이타닉 데이터 분석 및 머신러닝 적용 목차

 

승선한 사람 중에 형제자매(Sibling)와 배우자(Spouse)가 있는지 확인을 해본다. SibSp

pd.crosstab([data.SibSp],data.Survived).style.background_gradient(cmap='summer_r')

생존자 중 SibSp가 1명인 사람의 생존자가 많았고, 2명 이상 부터는 사망자가 더 많았다.

Bar차트와 Factor차트로 가족이 있는 사람들의 생존율을 확인해본다.

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('SibSp','Survived',data=data,ax=ax[0])
ax[0].set_title('SibSp vs Survived')
sns.factorplot('SibSp','Survived',data=data,ax=ax[1])
ax[1].set_title('SibSp vs Survived')
plt.close(2)
plt.show()

가족이 1명이 있는 경우 생존율이 가장 높으며 가족이 많을 수록 생준율은 떨어진다는 것을 확인할 수 있다.

Crosstab으로 객실별로도 가족수에 따른 생존율을 확인해본다.

pd.crosstab(data.SibSp,data.Pclass).style.background_gradient(cmap='summer_r')

가족수가 1명인 1등급 객실이 제일 생존율이 높은 것을 알 수 있다.

부모와 자식이 있는 승객(Parch)에 대한 데이터 분석을 해본다.

pd.crosstab(data.Parch,data.Pclass).style.background_gradient(cmap='summer_r')

부모와 자식이 없는 승객 중 3등급 객실에 승객수가 제일 많다는 것을 확인할 수 있고, 부모와자식이 있는 승객 역시 3등급 객실에 많이 탄 것을 확인 할 수 있다.

Bar차트와 Factor차트로 생존율을 확인해본다.

f,ax=plt.subplots(1,2,figsize=(20,8))
sns.barplot('Parch','Survived',data=data,ax=ax[0])
ax[0].set_title('Parch vs Survived')
sns.factorplot('Parch','Survived',data=data,ax=ax[1])
ax[1].set_title('Parch vs Survived')
plt.close(2)
plt.show()

부모와 자식이 3명이 있는 승객의 생존율이 가장 높은 것을 확인할 수 있다.

승선비용(Fare)에 대한 데이터를 분석을 해 본다. 제일 비싼 티켓과 제일 싼 티켓, 평균 티켓 비용을 확인한다.

print('Highest Fare was : ',data['Fare'].max())
print('Lowest Fare was : ',data['Fare'].min())
print('Average Fare was : ',data['Fare'].mean())

객실별로 티켓 비용을 분석해본다.

f,ax=plt.subplots(1,3,figsize=(20,8))
sns.distplot(data[data['Pclass']==1].Fare,ax=ax[0])
ax[0].set_title('Fare in Pclass 1')
sns.distplot(data[data['Pclass']==2].Fare,ax=ax[1])
ax[1].set_title('Fare in Pclass 2')
sns.distplot(data[data['Pclass']==3].Fare,ax=ax[2])
ax[2].set_title('Fare in Pclass 3')
plt.show

1등급 객실은 대략 70$정도 비용을 지불한 것이 많고, 2등급 객실은 10~20$ 사이, 3등급 객실은 10$ 미만이 많다.

 

* 해당 타이타닉 notebook은 Kaggle의https://www.kaggle.com/ash316/eda-to-prediction-dietanic분석을 그대로 따라하면서 나름대로 정리한 부분임을 밝혀둔다.

반응형