1. pd.cut( )
연속된 수치를 구간으로 나누어 카테고리화 할 때 사용
- bins 옵션: 나누고자 하는 구간의 개수 설정
- labels: 카테고리 명을 설정, 지정한 bins의 개수보다 1개 적어야 한다.
- 절대평가, 고객을 구매금액을 기준으로 구간을 나눌 때
train["SalePrice_cut"] = pd.cut(train["SalePrice"], bins = 4, labels = [1,2,3,4])
2. pd.qcut()
동일한 갯수를 갖도록 구간 분할(즉 데이터의 분포를 최대한 비슷하게 유지하려고 할 때 사용)
- bins대신 q 옵션을 사용한다.
- qcut 역시 labels 지정 가능하다.
- 상대평가, 고객을 고객의 수를 기준으로 구간을 나눌 때
train["SalePrice_qcut"] = pd.qcut(train["SalePrice"], q = 4, labels = [1,2,3,4])
3. histogram과 pd.cut
hist는 bins로 막대의 개수를 설정할 수 있는데 pd.cut과 같은 개념이다.
SalePrice의 히스토그램의 막대를 4개 설정해서 그린 것과 SalePrice_cut 변수의 빈도를 시각화한 것과 같다.
'Python > Pandas' 카테고리의 다른 글
[Python] Pandas - 18. map(), apply(), applymap() (1) | 2023.11.13 |
---|---|
[Python] Pandas - 12. groupby, pivot, pivot_table (0) | 2022.10.26 |
[Python] Pandas - 9. dt접근(datetime) (0) | 2022.10.26 |
[Python] Pandas - 8. value_counts(빈도수 확인), sort_(정렬하기) (0) | 2022.10.26 |
[Python] Pandas - 7. 데이터프레임 원하는 값만 출력하기 (0) | 2022.10.26 |
댓글