Snoopy [ML] 12. 데이터 전처리(1) - 기본방법 개요
머신러닝과 딥러닝/ML 개념정리

[ML] 12. 데이터 전처리(1) - 기본방법 개요

Sooyoon Jeong 2022. 11. 9.

1. 데이터 전처리 방법

데이터 전처리

사진출처: Data Preprocessing Concepts with Python | by Amit Chauhan | Towards AI

 

1) 정규화(scaling)

normalization,

스케일의 차이가 클 경우 정규분포로 만들어주거나 스케일 값을 변경해주는 것

 

2) 이상치(Outliers)

이상치를 제거하거나 대체

 

이상치를 어떻게 처리할 것인가를 결정할 때는 상당한 도메인 지식이 필요하다.

이상치 자체가 의미를 가지고 있을 수 있기 때문

 

3) 대체(imputation)

결측치가 있으면 채워오라고 오류를 뱉어낸다.

이때 결측치를 제거하거나 imputation을 진행하여 대체해야한다. 

 

4) 인코딩(encoding)

머신러닝에서는 문자가 있으면 오류를 뱉어내며

문자를 숫자로 바꿔주는 인코딩 작업을 해주어야 한다.

- 문자형을 숫자형으로 전환

- 범위가 큰 수치 데이터를 구간화

 

(각각의 열을 만들어주고 값을 넣어주는 등으로..)

🎈 ordinary encoding, one-hot-encoding

 

 

댓글