나는 오늘 무엇을 했는가?
1. 멋쟁이사자처럼 AIS 7기 파이썬 수업(박조은 강사님) 수강
✨ 평가지표
1. MAE(Mean Absolute Error)
(예측값 - 실제값)의 절대값에 대한 평균
절대값을 취하기 때문에 가장 직관적임
2. MSE(Mean Squared Error)
(실제값 - 예측값)의 제곱의 평균
제곱을 하기 때문에 특이치에 민감하다.
3. RMSE(Root Mean Squared Error)
MSE의 제곱근
RMSE를 사용하면 지표를 실제 값과 유사한 단위로 다시 변환하는 것이기 때문에 MSE보다 해석이 더 쉽다.
MAE보다 특이치에 Robust하다. ( = 민감하지 않다.)
4. RMSLE(Root Mean Squared Logarithmic Error)
((( log(실제값 + 1) - log (예측값 + 1)) ** 2).mean()) ** 0.5
*log를 취하면 skewed 값이 덜 skewed하게 된다.
*log를 취하면 분포가 좀 더 정규분포에 가까워진다.
🤔 log를 취하기 전에 +1을 해주는 이유?
log 특성을 생각하면 좋은데,
음수의 값으로 계산한다면 의도치 않은 큰 오차가 나올 수 있기 때문에
모든 값에 1을 더해서 가장 작은 값이 될 수도 있는 0도 음수가 나오지 않도록 방지하기 위함이다.
5. logloss
다중 클래스 분류 모델의 평가 방법
0에 가까울수록 정확하게 예측한 것이고, 확률이 낮아질 수록 값이 급격하게 커짐
🤔 logloss를 왜 쓰는가?
확률 값 자체를 평가 지표로 사용하고자하는 경우에 사용함
찍어서 맞춘 경우와 실제로 그 값을 맞게 예측하여 맞춘 경우를 구별하고자 함
엔트로피랑 공식이 비슷한데 1/N으로 나눠주었다는 차이가 있다.
예시) 0.3의 확률로 1이라고 예측한 사람보다, 0.9의 확률로 1이라고 예측한 사람이 실제값이 1일 때 더 많은 점수를 얻음
✨ 하이퍼파라미터 튜닝
1. 그리드서치
지정된 조합만 보기 때문에 해당 그리드를 벗어나는 곳에 좋은 성능을 내는 하이퍼파라미터가 있다면 찾지 못하는 단점 존재
2. 랜덤서치
랜덤한 값을 넣고 하이퍼파라미터를 찾습니다.
처음에는 범위를 넓게 지정하고 그 중에 좋은 성능을 내는 범위를 점점 좁혀가면서 찾습니다.
※ n_iter: 반복횟수 지정
※ cv: 조각 수
✨
best_estimator_ : 최고 성능에서 사용한 estimator
best_score_ : 최고 성능
cv_results_ : 어떤 조각이 어떤 성능을 냈는지
✨ 교차검증
1. hold-out-validation
한번만 나눠서 학습하고 검증하기 때문에 빠르지만 신뢰가 떨어짐
당장 비즈니스에 적용해야 하는 문제에 빠르게 검증해야할 경우 적합함
2. cross validation
속도가 오래걸린다는 단점이 있지만 validation의 결과에 대한 신뢰가 높다.
신뢰도가 중요한 경우 사용하기에 적합함
또한, cross validation 이 너무 오래 걸린다면 조각의 수를 줄이고 검증을 실행하면 좀 더 빠르게 결과를 볼 수 있다.
2. 천리길 과제
나는 오늘 무엇을 느꼈는가?
과제를 하다가 정말 정말 기본적인 내용인 것 같은데 생각이 잘 안났다..
내일 맑은 정신으로 다시 한 번 봐야겠다.
총 공부시간
9시간 23분 55초
- AIS: 8시간(09~18)
- 그 외: 1시간 23분 55초
'복습 및 회고 > TIL' 카테고리의 다른 글
[TIL] 20221109 (수) (0) | 2022.11.09 |
---|---|
[TIL] 20221108(화) (0) | 2022.11.08 |
[TIL] 20221106(일) (0) | 2022.11.06 |
[TIL] 20221105(토) (0) | 2022.11.05 |
[TIL] 20221104(금) (0) | 2022.11.04 |
댓글