본문 바로가기

카테고리 없음

[데이터분석] python 이산형 데이터 분석 정리

DAY 2022.04.14

나중에 참고할 기록용

일단 과제테스트(시험)통과용 이므로 기본 베이스라인만 정리한 글

이산형 데이터는 basic인 타이타닉~

 

데이터 출처

https://www.kaggle.com/competitions/titanic/data

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

1.데이터 불러오기

 

 

 

2.데이터 확인

사실 Name, Cabin, Ticket은 이거 전에 drop해버림(필요없다고 판단해서)

 

 

 

 

3.데이터 시각화

-범주형 변수 ->여기서는 주로 countplot(data, x=범주형값, hue=생존여부(y값))

-연속형 변수 -> 이상치 파악 boxplot(data, x=연속형변수값)

 

 

 

4.데이터 전처리

누가봐도 필요없는 변수라 과감하게 처음부터 Drop해버림
연속형변수의 이상치 대체는 일단 pass함(원래 해야됨)
test데이터도 age값 10단위로 맞춰주고~

 

 

 

 

5.데이터분석(데이터분할, 모델링, 적합모델)

 

 

 

 

6.데이터 최적화(예측) &저장/값비교

여기선 pred값이 반대로 나와서 map함수로 바꿔줬다.