Python24 [Python] Pandas - 18. map(), apply(), applymap() map, apply, applymap은 pandas에서 일괄적으로 값을 변경할 때 이용하는 함수로 다음과 같은 차이가 있다. apply(): 데이터프레임(DataFrame)과 시리즈(Series)에 모두 적용 가능 map(): 시리즈(Series)에만 적용 가능 applymap(): 데이터프레임(DataFrame)에만 적용 가능 [문제 출처] https://www.datamanim.com/dataset/99_pandas/pandasMain.html#time-series 1. map (1) 시리즈 기본 형태 df2 = df["컬럼명"].apply(lambda x:x/2) (2) 문제 풀이 예 Q. Income_Category의 카테고리를 apply 함수를 이용하여 다음과 같이 변경하여 newIncome 컬.. Python/Pandas 2023. 11. 13. [python] Seaborn 4 - lineplot seaborn.lineplot — seaborn 0.12.0 documentation (pydata.org) seaborn.lineplot — seaborn 0.12.0 documentation seaborn.lineplot seaborn.lineplot(data=None, *, x=None, y=None, hue=None, size=None, style=None, units=None, palette=None, hue_order=None, hue_norm=None, sizes=None, size_order=None, size_norm=None, dashes=True, markers=None, style_order=None, estimator='m seaborn.pydata.org Timeseries pl.. Python/Seaborn 2022. 11. 15. [python] 11. 상대경로와 절대경로 파이썬 등에서 파일을 불러올 때 경로를 지정하게 되는데, 이 경로는 크게 상대경로와 절대경로로 구분할 수 있다. / 루트 (가장 최상의 디렉토리로 이동 / Web root) ./ 현재 위치 (파일의 현재 디렉토리를 의미) ../ 현재 위치의 상단 폴더 (상위 디렉토리로 이동) . : 현재 위치 / : 들어간다 상대경로 현재 경로를 기준으로 하는 경로 (현재경로에서 ./ 쓰는 것과 아무것도 안쓰는 것과 같은 위치를 나타냄) 예시) Q. 멋쟁이 사자처럼 본사 건물은 어디 있나요? A. 여기서 우회전하신 다음에 직진하세요. 절대경로 전체 경로를 다 지정하는 경로 윈도우 - c: 부터 시작하는 경로 예시) Q. 멋쟁이 사자처럼 본사 건물은 어디 있나요? A. 서울특별시 종로구 청진동 246 D1동 16층, 17.. Python/개념정리 2022. 11. 8. [Python] 9. 웹스크래핑 (3) - read_html(), trange, time.sleep() 1. read_html pandas에는 html을 불러올 수 있는 read_html 함수가 있다. url = "url" table = pd.read_html(url) table[0] read_html을 사용하면 매우 편하지만, table 태그가 있어야만 가져올 수 있고 table 태그에 가져오고자 하는 내용이 있음에도 접근 권한 등의 설정으로 가져오지 못하는 경우가 있다. 이런 경우에는 requests를 사용하여 가져오면 된다. requests는 다른 게시글로 자세하게 설명하도록 하겠다. 2. trange from tqdm import trange for문을 활용하여 웹 스크래핑을 할 경우 range 대신 trange를 사용하면 진행상황을 막대로 볼 수 있다. (그러나, range 대신이기 때문에 반복문.. Python/개념정리 2022. 10. 30. [Python] 7. 웹스크래핑(1) - 기본개념, 주의사항 1. 웹스크래핑과 웹크롤링 정보를 수집하기 위한 목적을 가진 두 방법론 1) 웹 크롤링(web crawling) - 자동화 봇(웹 크롤러)이 웹을 돌아다니면서 정보를 수집하는 것이다. - 크롤러란 조직적, 자동화된 방법으로 월드와이드 웹을 탐색하는 컴퓨터 프로그램이다. - 크롤링은 크롤러가 하는 작업을 부르는 말로, 여러 인터넷 사이트의 페이지(문서, html 등)를 수집해서 분류하는 것이다. - 대체로 찾아낸 데이터를 저장한 후 쉽게 찾을 수 있게 인덱싱하며, 인터넷 상의 사이트를 인덱싱하는 목적을 가지고 있다. 2) 웹 스크래핑(web scraping) - 원하는 특정한 정보를 웹에서 추출하는 것이다. - HTTP를 통해 웹 사이트의 내용을 긁어다 원하는 형태로 가공하는 것으로 크롤링도 스크래핑에 포.. Python/개념정리 2022. 10. 30. [Python] Seaborn 3 - scatterplot 갤러리: Scatterplot with multiple semantics — seaborn 0.12.0 documentation (pydata.org) Scatterplot with multiple semantics — seaborn 0.12.0 documentation Scatterplot with multiple semantics seaborn components used: set_theme(), load_dataset(), despine(), scatterplot() import seaborn as sns import matplotlib.pyplot as plt sns.set_theme(style="whitegrid") # Load the example diamonds dataset diamonds.. Python/Seaborn 2022. 10. 27. [Python] seaborn 2 - lmplot 갤러리: Anscombe’s quartet — seaborn 0.12.0 documentation (pydata.org) Anscombe’s quartet — seaborn 0.12.0 documentation Anscombe’s quartet seaborn components used: set_theme(), load_dataset(), lmplot() import seaborn as sns sns.set_theme(style="ticks") # Load the example dataset for Anscombe's quartet df = sns.load_dataset("anscombe") # Show the results of a linear regres seaborn.pydata.org 도큐먼트: .. Python/Seaborn 2022. 10. 27. [Python] seaborn 1 - 기본개념 1. Seaborn 향상된 데이터 시각화를 위해 만들어진 Python 라이브러리 matplotlib 기반이며 matplotlib을 보다 편하게 사용하기위해 한 번 감싸진 것으로 생각하면 편하다. 아울러 seaborn에는 regression, matrix 등도 있다. 2. seaborn 시작하기 import seaborn as sns import matplotlib.pyplot as plt matplotlib을 함께 사용하면 옵션을 지정하기 편하다. ※ matplotlib 한글폰트 사용하는 방법 !pip install koreanize-matplotlib import koreanize_matplotlib 3. relplot 두 가지 변수의 관계를 나타내기 위해 주로 사용 x축과 y축 모두 변수를 지정해주어.. Python/Seaborn 2022. 10. 27. [Python] 5. EDA(2) - 직접구하기(수치형 데이터) 멋쟁이 사자처럼 AI스쿨 7기 박조은 강사님의 수업내용 및 자료를 바탕으로 포스팅하였습니다. 이전에는 추상화된 도구로 기술통계를 구하는 방법에 대해 배워보았다. 이번에는 도구를 사용하지 않고 직접 기술통계를 구하는 방법에 대해 배워볼 예정이다. (사용 라이브러리: pandas, numpy, seaborn, matplotlib) 추상화된 도구를 사용하면, 주로 확인하는 기술통계 값을 한꺼번에 확인할 수 있어서 간편하다. 그런데 왜 직접 기술통계를 구하는 것일까? 1. 대용량 데이터의 경우 추상화된 도구를 사용하기 어렵다. 2. 큰 용량의 데이터로 리포트를 출력하고자 할 때 시간이 오래걸린다. 즉, 추상화된 도구는 간편하기는 하지만 대용량의 데이터에는 부적절하며 직접 기술통계를 구할 경우에 보다 세밀하게 컨.. Python/개념정리 2022. 10. 26. [Python] 4. EDA(1) - pandas profiling, sweetviz, autoviz 멋쟁이 사자처럼 AI스쿨 7기 박조은 강사님의 수용내용 및 자료를 바탕으로 포스팅하였습니다. 추상화된 도구(pandas profiling, sweetviz, autoviz 등)로 기술통계를 간편하게 구하는 방법에 대해 배워볼 예정이다. 1. 수치형 변수와 범주형 변수 - 변수에는 수치형 변수와 범주형 변수가 있다. - 두 변수의 기술통계 값은 서로 다르다. - 일반적으로 seaborn을 활용하여 시각화를 할 경우, 범주형 데이터는 countplot을 수치형 데이터는 histogram을 사용한다. 2. 데이터셋 불러오기 데이터셋을 불러온 뒤에, 기본적으로 확인하면 좋을 사항들이다. 추가로 데이터 셋은 sns와 pd 라이브러리를 활용하여 불러올 수 있다. 데이터명 = sns.load_dataset("###".. Python/개념정리 2022. 10. 26. [Python] Pandas - 12. groupby, pivot, pivot_table 1. group by split - apply - combine 1️⃣ split: 몇가지 기준에 따라 데이터를 그룹으로 분할한다. 2️⃣ applying: 각 그룹에 독립적으로 함수를 적용한다. 3️⃣ combining: 결과를 데이터 구조로 결합한다. 적용단계에서 할 수 있는 것들 1️⃣ 집계 각각에 대한 요약 통계(또는 통계)를 계산 그룹의 합계, 평균 그룹의 크기, 개수 2️⃣ 변환 일부 그룹 별 계산을 수행하고 같은 인덱싱된 개체 그룹 내에서 데이터(zscore)를 표준화 그룹 내의 NA를 각 그룹에서 파생된 값으로 채운다. 3️⃣ 필터링 그룹별 계산에 따라 일부 그룹 삭제 참 또는 거짓을 평가 구성원이 소수인 그룹에 속한 데이터를 삭제합니다. 그룹 합계 또는 평균을 기준으로 데이터를 필터링합니.. Python/Pandas 2022. 10. 26. [Python] Pandas - 10. 구간 나누기(cut, qcut) 1. pd.cut( ) 연속된 수치를 구간으로 나누어 카테고리화 할 때 사용 - bins 옵션: 나누고자 하는 구간의 개수 설정 - labels: 카테고리 명을 설정, 지정한 bins의 개수보다 1개 적어야 한다. - 절대평가, 고객을 구매금액을 기준으로 구간을 나눌 때 train["SalePrice_cut"] = pd.cut(train["SalePrice"], bins = 4, labels = [1,2,3,4]) 2. pd.qcut() 동일한 갯수를 갖도록 구간 분할(즉 데이터의 분포를 최대한 비슷하게 유지하려고 할 때 사용) - bins대신 q 옵션을 사용한다. - qcut 역시 labels 지정 가능하다. - 상대평가, 고객을 고객의 수를 기준으로 구간을 나눌 때 train["SalePrice_qc.. Python/Pandas 2022. 10. 26. 이전 1 2 다음