분류 전체보기350 [SUM, MAX, MIN] 21. 최댓값 구하기 👉https://school.programmers.co.kr/learn/courses/30/lessons/59415 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 🤔 문제 분석 1) 가장 최근에 들어온 동물은 언제 들어왔는지 조회하는 SQL 문을 작성해주세요. 💡 풀이 SELECT MAX(DATETIME) AS "시간" FROM ANIMAL_INS 코딩테스트/프로그래머스 SQL 2022. 11. 15. [TIL] 20221115(화) 나는 오늘 무엇을 했는가? 1. AIS 7기 수업 수강(오늘코드, 박조은 강사님) - house prices데이터 셋 활용 피쳐엔지니어링 실습, benz 데이터셋 활용 선형회귀 실습 진행 2. 프로그래머스 SQL 4문제 풀이 3. seaborn - displot, 파라미터 4. pycaret 실습 나는 오늘 무엇을 느꼈는가? house prices 데이터의 경우 변수가 많아서 헷갈렸다. house prices 한달을 공부할 수 있을 정도로 배울게 많은 데이터라고 하니 튜토리얼 등도 열심히 필사해보면서 공부해보자. (그동안 배웠던 머신러닝도 다시 한 번 공부해야할 것 같다.) 총 공부시간 10시간 17분 31초 - AIS: 8시간 - 그 외: 2시간 17분 31초 복습 및 회고/TIL 2022. 11. 15. [ML] 25. AutoML 개요 1. AutoML이란? 데이터의 성격에 맞게 자동으로 데이터 분석 모델을 추천해주는 Auto Machine Laerning 기법 (머신러닝 모델을 만드는 인공지능이라고 할 수 있다.) 기계학습 파이프라인에서에서 반복적으로 수행하는 하기 과정을 함수화하여 자동화하는 것이다. - 데이터 분할, 데이터 전처리, feature engineering 및 selection, 모델 선택, 하이퍼 파라미터 튜닝 등 2. AutoML 장점 매우 쉽고 효율적으로 원하는 결과값을 얻을 수 잇다. 생산성을 크게 향상시킬 수 있고 비전문가의 머신러닝 접근성과 활용성을 높여준다. [참고] 기존ML에서 필요한 것 - 데이터 혹은 업계에 대한 전문지식 - 통계학에 대한 깊은 이해 - 예측 모델에 대한 이해 - 방대한 시간 3. Au.. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [TIL] 20221114(월) 나는 오늘 무엇을 했는가? 1. AIS 7기 수업 수강 2. AutoML 3. pycaret -> pycaret 설치가 잘 안된다.. 가상환경을 새로 만들고 그 곳에 설치를 해야할 것 같다 ㅠㅠ 나는 오늘 무엇을 느꼈는가? 아 pycaret 설치.... ㅠㅠㅠ 내일 일찍 일어나서 colab으로 다시 시도해봐야겠다.... 총 공부시간 9시간 30분 50초 - AIS: 8시간 - 그 외: 1시간 30분 50초 복습 및 회고/TIL 2022. 11. 14. [ML] 22. 머신러닝 분류모델과 분류모델의 알고리즘 개요 [ML] 2. 머신러닝의 주요 4가지 알고리즘 (tistory.com) 예전에 간단하게나마 정리한바가 있지만, 공부를 하면서 헷갈리는 부분이 많아서 하나씩 세부적으로 정리해보고자 한다. 예전 게시글에서도 확인할 수 있지만 사이킷런으로 구현하는 머신러닝에서는 크게 6가지 기능이 있고 가장 핵심은 분류와 회귀모델이라고 할 수 있다. 먼저 분류 모델과 분류모델에서 사용하는 주요 알고리즘에 대해 알아보자. 1. 분류모델 지도학습의 대표적인 유형으로 feature와 label 값을 학습해 모델을 생성하고 생성된 모델에 새로운 데이터를 넣어 적절한 레이블 값을 예측하는 모델 2. 분류 알고리즘 1️⃣ 앙상블 2️⃣ 랜덤포레스트 3️⃣ 로지스틱회귀 4️⃣ 서포터 벡터 머신 5️⃣ 나이브 베이즈 6️⃣ 신경망 7️⃣ .. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [ML] 21. 데이터 전처리 (10) - 파생변수 만들기 멋쟁이 사자처럼 AI스쿨 7기 오늘코드 박조은 강사님의 수업자료를 바탕으로 포스팅하였습니다. 파생변수 이미 존재하는 변수를 활용하여 새로운 변수를 생성하는 것 파생변수는 왜 만들까? 1️⃣ 적절히 생성된 파생변수는 데이터의 특성을 더 잘 설명하기에 데이터 해석이 편리해지고 머신러닝 성능이 개선된다. 2️⃣ 데이터 분석의 목적은 feature들의 숨겨진 관계는 feature들의 연관관계를 통해 파악할 수 있다. 이때, 연관관계를 잘 설명해주는 적절한 feature가 없다면 직접 만들어서 사용할 수 있다. 파생변수 만드는 방법 1️⃣ 사칙연산, 최대, 최소, 산술평균 등 다양한 산술적인 방법으로 만들기 2️⃣ 시간, 지역별로 구분하거나 비율을 구하여 만들기 그 외에도 다양한 방법을 사용하여 파생변수를 생성할.. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [ML] 20. 데이터 전처리 (9) - 인코딩(Ordinary-Encoding, label-Encoding, One-hot-Encoding) 멋쟁이 사자처럼 AI스쿨 7기 오늘코드 박조은 강사님의 수업자료를 바탕으로 포스팅하였습니다. 인코딩이란? categorical Feature를 numerical feature로 변환하는 것이다. 왜 인코딩이 필요할까? 1️⃣ 머신러닝에서는 문자형 변수가 있으면 오류가 발생하며, 문자형 변수를 수치형 변수로 바꿔주어야 한다. (선형회귀 모델, 딥러닝 모델등은 문자형 변수 사용 불가) 2️⃣ 데이터 시각화에 유리하다. 범주형 변수를 수치형 변수로 바꿔는 인코딩 방법에는 여러가지가 있다. 가장 대표적인 것이 1. Ordinal-Encoding 2. One-hot-Encoding Ordinal Encoding은 a 종속변수, label, target, 정답, 1차원 벡터 예) 시험의 답안 X는 보통 2차원으로 .. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [ML] 19. 데이터 전처리(8) - 이산화(Discretisation / Equal with binining, Equal frequency bining) 멋쟁이 사자처럼 AI스쿨 7기 오늘코드 박조은 강사님의 수업자료를 바탕으로 포스팅하였습니다. 1. 이산화란? numerical feature를 일정 기준으로 나누어 그룹화 하는 것으로 연속된 수치데이터의 구간을 잘 나눠준다면 머신러닝 알고리즘에 힌트를 줄 수도 있다. (수치형 데이터를 범주형 데이터로 변환할 필요가 있을 때 사용한다.) 그럼 구간화하는 기준은 어떻게 정해야할까? EDA를 열심히 해서, 어떻게 나누는 것이 예측에 도움이 될지 확인해야한다. 성능이 향상될 수도 있지만, 잘못 구간화하면 모델의 성능이 떨어질 수도 있다는 것을 잊지말자. 또한, 트리모델의 경우 데이터를 너무 잘게 나누지 않는 것이 일반화 하는데 도움이 될 수 있다. 2. 이산화가 필요한 이유 1️⃣ 특징을 잘 나타내는 속성으로 .. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [ML] 18. 데이터 전처리(7) - 정규분포와 트랜스포메이션(log transformation) [스케일링] https://42-snoopy.tistory.com/entry/ML-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-20-%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81 멋쟁이 사자처럼 AI스쿨 7기 오늘코드 박조은 강사님의 수업자료를 바탕으로 포스팅하였습니다. 1. feature scaling의 취약점 robust scaling의 경우 비교적 이상치에 강점이 있기는 하지만, 일반적으로 스케일링은 편향된 분포나 이상치에 취약하다. feature scaling을 하면 스케일링은 잘 되었지만, 아직 표준정규분포 형태가 아니기 때문이다. 따라서 처음부터 정규분포 형태가 아닌 경우에는 feature scaling은 그다지 좋은 .. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [ML] 17. 데이터 전처리 (6) - 스케일링(z-score, min-max, robust) 멋쟁이 사자처럼 AI스쿨 7기 오늘코드 박조은 강사님의 수업자료를 바탕으로 포스팅하였습니다. 1. 변수스케일링이란? feature의 범위를 조정하여 정규화하는 것(수치형 피쳐) 트리기반 모델은 데이터의 절대적인 크기보다는 상대적인 크기에 영향을 받기 때문에 따로 스케일링을 해줄 필요는 없지만, 다른 모델을 사용할 때는 변수 스케일링을 해주어야 올바른 분석을 할 수 있다.(특히 회귀에서는 유용하다.) 2. 스케일링이 왜 중요할까? 1️⃣ feature의 범위가 다르면 비교가 어렵다. 2️⃣ 일부 머신러닝 모델(회귀 등에서 다항식 연산을 할 때 등)에서는 제대로 작동하지 않는다. 3️⃣ 스케일링이 잘 되어 있으면 서로 다른 변수끼리 비교하는 것이 편리하고, 성능이 상승한다. 4️⃣ feature scalin.. 머신러닝과 딥러닝/ML 개념정리 2022. 11. 14. [TIL] 20221113(일) 나는 오늘 무엇을 했는가? kaggle house prices 튜토리얼 EDA 필사 나는 오늘 무엇을 느꼈는가? EDA 필사를 하는데, 새롭게 보는 기능들이 많아서 어렵게 느껴졌다. 완벽하게 이해를 하지는 못해서 다시 한 번 해봐야할 것 같다. + 어제 아침 일찍 대전을 갔다가 오늘 오후에 돌아왔는데 몸이 생각보다 너무 너무 피곤한 것 같다 ㅠㅠ 성실함은 체력에서부터 나온다. 체력 관리 잘하고 몸 잘 챙기자! 총 공부시간 58분 17초 복습 및 회고/TIL 2022. 11. 13. [TIL] 20221112(토) 1. 나는 오늘 무엇을 했는가? 미드프로젝트 수정 및 회고 2. 나는 오늘 무엇을 느꼈는가? 미루고 미뤄두었던 미드프로젝트를 다시 살펴보면서 수정할 부분을 수정해보는 등 회고를 진행하였다. 짧은 기간이었지만, 정말 정말 모든 과정에 열심히 참여했던 것 같아 뿌듯했고 (평가가 전부는 아니지만) 많은 분들께 좋은 평가를 받을 수 있어서 좋았던 것 같다. 3. 총 공부시간 1시간 51분 36초 복습 및 회고/TIL 2022. 11. 12. 이전 1 ··· 20 21 22 23 24 25 26 ··· 30 다음