웹 스크래핑의 기본

데이터 사이언스 기초

웹 스크래핑의 기본

skbaek1223 2024. 11. 13. 17:42

웹 스크래핑은 웹 페이지의 데이터를 자동으로 수집하는 기술입니다.

웹 스크래핑의 기본 방법을 간단하게 정리해 보려고 합니다.

1. URL 요청하기

라이브러리를 import 한 후, requests.get(웹사이트) 를 통해 URL 을 요청할 수 있고, .status_code 를 통해 200이 나오면 요청이 성공했다는 것을 알 수 있습니다.

BeautifulSoup (URL 요청 .text, 'html.parser') 으로 BeautifulSoup 라이브러리의 html 분석 도구를 생성합니다.

2. 개발자 도구

데이터의 추출을 원하는 웹페이지에서 ctrl+ shift + j 를 누르면 개발자 도구 창이 열리게 됩니다. 개발자 도구 창에서 빨간색 네모로 표시된 부분을 누르고 웹사이트에서 원하는 부분을 누르면 개발자 도구 창의 "Elements" 에 관련된 html 부분이 하이라이트 됩니다.

3. Select_one()

분석 도구. select_one() 을 활용하면 데이터 요소 한 개만 추출할 수가 있습니다.

개발자 도구에서 Copy selector 을 활용하면 html 을 복사할 수가 있고, soup.select_one(' html ' ) 을 통해 요소를 불러올 수 있습니다.

4. find(), findAll()

<div class="temperature_info"> 라는 html 이 있다면, div 는 태그이고, class="temperature_info" 는 속성입니다.

.find( 태그, 속성 딕셔너리) 는 관련된 첫 번째 html 을, .findAll( 태그, 속성 딕셔너리 ) 는 관련된 모든 html 을 리스트로 반환합니다.

'데이터 사이언스 기초' 카테고리의 다른 글

분산분석 with 파이썬 (1)	2024.11.15
t 검정 with 파이썬 (0)	2024.11.15
파이썬 기초 프로젝트 리뷰 (3)	2024.11.09
Leet-Code pandas 버전 리뷰 (1)	2024.11.08
SQL Window Function (0)	2024.11.04

현재글웹 스크래핑의 기본

skbaek1223 님의 블로그

skbaek1223 님의 블로그 입니다.

ADsP, SQL, 프로젝트, 파이썬, 통계, 코딩,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

skbaek1223 님의 블로그