본문 바로가기

Coding Test

[데이터분석] Python 연속형 데이터 분석 정리

DAY 2022.04.14

코딩테스트로 데이터분석 과제테스트는 처음이라 뭘 준비해야할 지 감이 안 오지만

우선 블로그 찾아보니 시각화랑 데이터 전처리를 익히라고 해서 그 위주로 공부 중이다.

우선 Datamanim으로 pandas문법 싹 훑었다.

안 올리려다가.. 나중에 언젠가 알고리즘코테가 아니라 데이터분석코드가 유용할 것 같아 기록 남기기

 

 

 

데이터 출처 (캐글)

https://www.kaggle.com/competitions/bike-sharing-demand/data?select=train.csv 

 

Bike Sharing Demand | Kaggle

 

www.kaggle.com

 

 

1.데이터 불러오기

 

 

 

 

2.데이터 확인

 

 

 

 

3.데이터 분포 파악(분포파악 후 특이점 4에서 전처리)

-특이점 스포: windspeed에서 0이라는 값이 존재!

 

**참고자료 https://didu-story.tistory.com/43?category=937100 

 

 

 

 

4.데이터 전처리(+분포파악)

-(결측치 존재하면 제거)

-이상치제거

-첨도/왜도 기울어진 경우 log취하기★

-명목형변수 get_dummies 혹은 LabelEncoder사용

-연속형변수 정규화

 

#이상치 제거(IQR)

#왜도 (정규분포로 만들어주기)

분포가 치우처짐을 파악
치우처진 왜도를 log씌워서 그나마(?) 정규분포형태로 만들어주기

#(3데이터파악)에서 바람windspeed가 0이라는 말도 안되는 값이 존재하여 평균대체함

#범주형변수 처리

#연속형 변수 정규화

 

 

 

 

 

 

5.데이터분석(변수선택, 데이터분할,모델링)

 

 

6.데이터 최적화

모델링 것으로 분할 전 train데이터를 fit(학습)시켜서 실제 test데이터 넣기

(rf, xgboost 중 정확도 높은 것 하나만 선택!해도 됨)

 

 

7.데이터 답안 만들기

 

 

 

이 문제에서 정확도에 높은 기여를 하는 부분

이거 안 해주면 정확도 반토막 난다..

'Coding Test' 카테고리의 다른 글

Itertools 함수의 순열조합 정리  (0) 2022.03.23
파이썬 출력값 정리  (0) 2022.03.15
코테 연습 정리  (0) 2022.03.09