데이터 사이언스 기초

웹 스크래핑의 기본

skbaek1223 2024. 11. 13. 17:42

웹 스크래핑은 웹 페이지의 데이터를 자동으로 수집하는 기술입니다.

 

웹 스크래핑의 기본 방법을 간단하게 정리해 보려고 합니다.

 

1. URL 요청하기

 

url 요청

 

라이브러리를 import 한 후, requests.get(웹사이트) 를 통해 URL 을 요청할 수 있고, .status_code 를 통해 200이 나오면 요청이 성공했다는 것을 알 수 있습니다.

 

BeautifulSoup (URL 요청 .text, 'html.parser') 으로 BeautifulSoup 라이브러리의 html 분석 도구를 생성합니다.

 

2. 개발자 도구

 

개발자 도구

 

 

데이터의 추출을 원하는 웹페이지에서 ctrl+ shift + j 를 누르면 개발자 도구 창이 열리게 됩니다. 개발자 도구 창에서 빨간색 네모로 표시된 부분을 누르고 웹사이트에서 원하는 부분을 누르면 개발자 도구 창의 "Elements" 에 관련된 html 부분이 하이라이트 됩니다. 

 

3. Select_one()

 

html 복사

 

 

분석 도구. select_one() 을 활용하면 데이터 요소 한 개만 추출할 수가 있습니다.

개발자 도구에서 Copy selector 을 활용하면 html 을 복사할 수가 있고, soup.select_one(' html ' ) 을 통해 요소를 불러올 수 있습니다.

 

4. find(), findAll()

 

 

 

<div class="temperature_info"> 라는 html 이 있다면, div 는 태그이고, class="temperature_info" 는 속성입니다.

 

.find( 태그, 속성 딕셔너리) 는 관련된 첫 번째 html 을, .findAll( 태그, 속성 딕셔너리 ) 는 관련된 모든 html 을 리스트로 반환합니다.

'데이터 사이언스 기초' 카테고리의 다른 글

분산분석 with 파이썬  (1) 2024.11.15
t 검정 with 파이썬  (0) 2024.11.15
파이썬 기초 프로젝트 리뷰  (3) 2024.11.09
Leet-Code pandas 버전 리뷰  (1) 2024.11.08
SQL Window Function  (0) 2024.11.04