웹 스크래핑은 웹 페이지의 데이터를 자동으로 수집하는 기술입니다.
웹 스크래핑의 기본 방법을 간단하게 정리해 보려고 합니다.
1. URL 요청하기
라이브러리를 import 한 후, requests.get(웹사이트) 를 통해 URL 을 요청할 수 있고, .status_code 를 통해 200이 나오면 요청이 성공했다는 것을 알 수 있습니다.
BeautifulSoup (URL 요청 .text, 'html.parser') 으로 BeautifulSoup 라이브러리의 html 분석 도구를 생성합니다.
2. 개발자 도구
데이터의 추출을 원하는 웹페이지에서 ctrl+ shift + j 를 누르면 개발자 도구 창이 열리게 됩니다. 개발자 도구 창에서 빨간색 네모로 표시된 부분을 누르고 웹사이트에서 원하는 부분을 누르면 개발자 도구 창의 "Elements" 에 관련된 html 부분이 하이라이트 됩니다.
3. Select_one()
분석 도구. select_one() 을 활용하면 데이터 요소 한 개만 추출할 수가 있습니다.
개발자 도구에서 Copy selector 을 활용하면 html 을 복사할 수가 있고, soup.select_one(' html ' ) 을 통해 요소를 불러올 수 있습니다.
4. find(), findAll()
<div class="temperature_info"> 라는 html 이 있다면, div 는 태그이고, class="temperature_info" 는 속성입니다.
.find( 태그, 속성 딕셔너리) 는 관련된 첫 번째 html 을, .findAll( 태그, 속성 딕셔너리 ) 는 관련된 모든 html 을 리스트로 반환합니다.
'데이터 사이언스 기초' 카테고리의 다른 글
분산분석 with 파이썬 (1) | 2024.11.15 |
---|---|
t 검정 with 파이썬 (0) | 2024.11.15 |
파이썬 기초 프로젝트 리뷰 (3) | 2024.11.09 |
Leet-Code pandas 버전 리뷰 (1) | 2024.11.08 |
SQL Window Function (0) | 2024.11.04 |