Snoopy [Python] Pandas - 1. 기본개념, 파일 불러오기
Python/Pandas

[Python] Pandas - 1. 기본개념, 파일 불러오기

Sooyoon Jeong 2022. 10. 26.

파이썬에서 정말 정말 자주 사용하는 라이브러리 중 하나인 pandas에 대해 하나씩 배워보도록 하겠다.

 

[판다스 공식문서] https://pandas.pydata.org/docs/reference/index.html


1. Pandas란?

pandas는 행과 열 구조의 데이터 분석 도구로 두 가지 대표적인 자료 구조가 있다.

 

1) DataFrame: 행렬, 2차원 구조

2) Series: 벡터, 1차원 구조

 

2. 라이브러리 로드

import pandas as pd

판다스의 별칭은 주로 pd를 사용한다.

 

3. 파일 불러오고 저장하기

1) 엑셀 불러오기

pd.read_excel('파일명.xlsx')

 

2) CSV 파일 불러오기

pd.read_csv('파일명.csv')

파일명 뒤 확장자는 대소문자를 구분하니 참고하자.

 

3) glob를 사용하여 파일 불러오기

from glob import glob
file_name = glob("*.csv")[0]

df = pd.read_csv(file_name, encoding = "cp949")

경로가 다를 경우, data/*.csv 등으로 작성해주면 된다.

*은 모든 문자를 의미하므로 특정 문자 앞 뒤로 넣어주면, 특정문자로 시작하고 끝나는 파일명들을 불러올 수 있다.

 

4) 작업한 데이터프레임 파일로 저장하기

데이터프레임명.to_csv('파일명.csv', index = False)

index = False를 하면 인덱스를 포함하지 않고 저장하겠다는 뜻이다.

 

[예시]

df_grade.to_csv("grade.csv", encoding = "CP949")

df_grade.to_csv("grade.csv", index = False) # 인덱스 값을 저장하고 싶지 않을 경우

pd.read_csv("grade.csv", encoding = "CP949")

## 저장할 때는 데이터프레임명을 알려줘야 한다.
## 그러나 불러올 때는 데이터프레임명을 모르는 상태이다. 그러므로 pd.를 사용해야 한다.

댓글