1. read_html
pandas에는 html을 불러올 수 있는 read_html 함수가 있다.
url = "url"
table = pd.read_html(url)
table[0]
read_html을 사용하면 매우 편하지만,
table 태그가 있어야만 가져올 수 있고
table 태그에 가져오고자 하는 내용이 있음에도 접근 권한 등의 설정으로 가져오지 못하는 경우가 있다.
이런 경우에는 requests를 사용하여 가져오면 된다.
requests는 다른 게시글로 자세하게 설명하도록 하겠다.
2. trange
from tqdm import trange
for문을 활용하여 웹 스크래핑을 할 경우 range 대신 trange를 사용하면 진행상황을 막대로 볼 수 있다.
(그러나, range 대신이기 때문에 반복문의 범위를 알 경우에만 사용할 수 있다는 단점이 있다.)
긁어오고자 하는 양이 방대할 경우 매우 유용하다.
3. time.sleep()
서버 다운을 위해 time.sleep을 걸어주어 스크래핑을 해주는 것이 좋다.
'Python > 개념정리' 카테고리의 다른 글
[python] 11. 상대경로와 절대경로 (0) | 2022.11.08 |
---|---|
[Python] 7. 웹스크래핑(1) - 기본개념, 주의사항 (0) | 2022.10.30 |
[Python] 5. EDA(2) - 직접구하기(수치형 데이터) (0) | 2022.10.26 |
[Python] 4. EDA(1) - pandas profiling, sweetviz, autoviz (0) | 2022.10.26 |
[Python] 3. 함수 (0) | 2022.10.26 |
댓글