DAY 2022.04.14
코딩테스트로 데이터분석 과제테스트는 처음이라 뭘 준비해야할 지 감이 안 오지만
우선 블로그 찾아보니 시각화랑 데이터 전처리를 익히라고 해서 그 위주로 공부 중이다.
우선 Datamanim으로 pandas문법 싹 훑었다.
안 올리려다가.. 나중에 언젠가 알고리즘코테가 아니라 데이터분석코드가 유용할 것 같아 기록 남기기
데이터 출처 (캐글)
https://www.kaggle.com/competitions/bike-sharing-demand/data?select=train.csv
1.데이터 불러오기
2.데이터 확인
3.데이터 분포 파악(분포파악 후 특이점 4에서 전처리)
-특이점 스포: windspeed에서 0이라는 값이 존재!
**참고자료 https://didu-story.tistory.com/43?category=937100
4.데이터 전처리(+분포파악)
-(결측치 존재하면 제거)
-이상치제거
-첨도/왜도 기울어진 경우 log취하기★
-명목형변수 get_dummies 혹은 LabelEncoder사용
-연속형변수 정규화
#이상치 제거(IQR)
#왜도 (정규분포로 만들어주기)
#(3데이터파악)에서 바람windspeed가 0이라는 말도 안되는 값이 존재하여 평균대체함
#범주형변수 처리
#연속형 변수 정규화
5.데이터분석(변수선택, 데이터분할,모델링)
6.데이터 최적화
모델링 것으로 분할 전 train데이터를 fit(학습)시켜서 실제 test데이터 넣기
(rf, xgboost 중 정확도 높은 것 하나만 선택!해도 됨)
7.데이터 답안 만들기
이 문제에서 정확도에 높은 기여를 하는 부분
이거 안 해주면 정확도 반토막 난다..
'Coding Test' 카테고리의 다른 글
Itertools 함수의 순열조합 정리 (0) | 2022.03.23 |
---|---|
파이썬 출력값 정리 (0) | 2022.03.15 |
코테 연습 정리 (0) | 2022.03.09 |