Snoopy [Python] Pandas - 10. 구간 나누기(cut, qcut)
Python/Pandas

[Python] Pandas - 10. 구간 나누기(cut, qcut)

Sooyoon Jeong 2022. 10. 26.

1. pd.cut( )

연속된 수치를 구간으로 나누어 카테고리화 할 때 사용

  - bins 옵션: 나누고자 하는 구간의 개수 설정

  - labels: 카테고리 명을 설정, 지정한 bins의 개수보다 1개 적어야 한다.

  - 절대평가, 고객을 구매금액을 기준으로 구간을 나눌 때

train["SalePrice_cut"] = pd.cut(train["SalePrice"], bins = 4, labels = [1,2,3,4])

 

2. pd.qcut()

동일한 갯수를 갖도록 구간 분할(즉 데이터의 분포를 최대한 비슷하게 유지하려고 할 때 사용)

  - bins대신 q 옵션을 사용한다.

  - qcut 역시 labels 지정 가능하다.

  - 상대평가, 고객을 고객의 수를 기준으로 구간을 나눌 때

train["SalePrice_qcut"] = pd.qcut(train["SalePrice"], q = 4, labels = [1,2,3,4])

 

3. histogram과 pd.cut

hist는 bins로 막대의 개수를 설정할 수 있는데 pd.cut과 같은 개념이다.
SalePrice의 히스토그램의 막대를 4개 설정해서 그린 것과 SalePrice_cut 변수의 빈도를 시각화한 것과 같다.

hist

 

댓글