1. 데이터 전처리 방법
데이터 전처리
사진출처: Data Preprocessing Concepts with Python | by Amit Chauhan | Towards AI
1) 정규화(scaling)
normalization,
스케일의 차이가 클 경우 정규분포로 만들어주거나 스케일 값을 변경해주는 것
2) 이상치(Outliers)
이상치를 제거하거나 대체
이상치를 어떻게 처리할 것인가를 결정할 때는 상당한 도메인 지식이 필요하다.
이상치 자체가 의미를 가지고 있을 수 있기 때문
3) 대체(imputation)
결측치가 있으면 채워오라고 오류를 뱉어낸다.
이때 결측치를 제거하거나 imputation을 진행하여 대체해야한다.
4) 인코딩(encoding)
머신러닝에서는 문자가 있으면 오류를 뱉어내며
문자를 숫자로 바꿔주는 인코딩 작업을 해주어야 한다.
- 문자형을 숫자형으로 전환
- 범위가 큰 수치 데이터를 구간화
(각각의 열을 만들어주고 값을 넣어주는 등으로..)
🎈 ordinary encoding, one-hot-encoding
'머신러닝과 딥러닝 > ML 개념정리' 카테고리의 다른 글
[ML] 16. 데이터 전처리 (5) - 희소값 다루기(기타처리) (0) | 2022.11.09 |
---|---|
[ML] 15. 데이터 전처리 (4) - 이상치 다루기(스케일링) (0) | 2022.11.09 |
[ML] 10. 하이퍼파라미터 튜닝(3) - Random Search 주요 파라미터 (0) | 2022.11.03 |
[ML] 9. 하이퍼파라미터 튜닝(2) - Grid Search 주요 파라미터와 어트리뷰트 (0) | 2022.11.03 |
[ML] 8. 하이퍼파라미터 튜닝(1) - 기본개념과 종류 (0) | 2022.11.03 |
댓글