파이썬으로 웹사이트 크롤링
본문 바로가기
코딩 배우기

파이썬으로 웹사이트 크롤링

by 재롱 파월 2023. 5. 10.
728x90

먼저, requests와 BeautifulSoup 모듈을 사용하여 해당 웹사이트의 HTML 소스 코드를 가져와 파싱할 수 있습니다.

 

그리고 re 모듈을 사용하여 원하는 정보를 추출할 수 있습니다.

 

예를 들어, 구글 검색 결과에서 타이틀과 URL을 추출하는 코드는 다음과 같습니다.

 

import requests from bs4 import BeautifulSoup

import re query = "파이썬 크롤링"

 

# 검색어

url = "https://www.google.com/search?q=" + query

 

# HTTP GET 요청

req = requests.get(url)

 

# HTML 소스코드 파싱

soup = BeautifulSoup(req.content, "html.parser")

 

# 타이틀 추출

title = soup.find("title").get_text()

 

# URL 추출

url_regex = re.compile(r'(https?://\S+)')

urls = []

for a in soup.find_all("a", href=url_regex):

urls.append(a["href"])

 

print(title)

print(urls)

 

위 코드에서는 requests 모듈을 사용하여 구글 검색 결과 페이지에 HTTP GET 요청을 보내고,

 

BeautifulSoup 모듈을 사용하여 HTML 소스 코드를 파싱합니다.

 

그리고 re 모듈을 사용하여 URL을 추출합니다.

 

이 코드를 실행하면 구글 검색 결과에서 타이틀과 URL을 추출할 수 있습니다.

 

단, 이 코드는 구글 서비스에 대한 크롤링을 시도하는 것이므로,

 

해당 사이트의 이용약관을 확인하고 적법한 방법으로 크롤링하는 것이 중요합니다.

728x90

댓글