머신러닝과 딥러닝/ML 개념정리

[ML] 7. train/test 데이터 나누기, train_test_split

Sooyoon Jeong 2022. 10. 31.

멋쟁이 사자처럼 AI 스쿨 7기 오늘코드 박조은 강사님의 수업자료 및 수업내용을 바탕으로 포스팅하였습니다.

1. 인덱스로 직접 나누기

1) 비율로 데이터 나누기

int(df.shpae[0] * 비율)

2) train, test 쪼개기

train = 데이터프레임[:int(df.shpae[0] * 비율)]
test = 데이터프레임[int(df.shpae[0] * 비율):]

3) feature_names와 label_name 생성

feature_names: 학습과 예측에 사용할 컬럼 지정

label_name: 정답이자 예측해야 할 컬럼 지정

4) 학습, 예측 데이터 셋 생성

X_train: 기출문제

y_train: 기출문제 정답

X_test: 실전문제

y_test: 실전문제 정답

2. train_test_split 을 활용하여 나누기

train_test_split을 사용하면 위 과정을 보다 간단하게 진행할 수 있다.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify = y,random_state=42)

stratify: label의 분포를 균등하게 배분

🔗 참고자료

오늘코드 박조은 강사님 강의자료

'머신러닝과 딥러닝 > ML 개념정리' 카테고리의 다른 글

[ML] 9. 하이퍼파라미터 튜닝(2) - Grid Search 주요 파라미터와 어트리뷰트 (0)	2022.11.03
[ML] 8. 하이퍼파라미터 튜닝(1) - 기본개념과 종류 (0)	2022.11.03
[ML] 6. 회귀모델 성능평가지표, 분류모델 성능평가지표 (0)	2022.10.31
[ML] 4. DecisionTree(결정트리) (0)	2022.10.26
[ML] 3. 머신러닝 파이프라인, 전체과정 (0)	2022.10.26

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

[ML] 7. train/test 데이터 나누기, train_test_split

1. 인덱스로 직접 나누기

2. train_test_split 을 활용하여 나누기

'머신러닝과 딥러닝 > ML 개념정리' 카테고리의 다른 글

댓글

티스토리툴바