파이썬으로 웹사이트 크롤링

728x90

먼저, requests와 BeautifulSoup 모듈을 사용하여 해당 웹사이트의 HTML 소스 코드를 가져와 파싱할 수 있습니다.

그리고 re 모듈을 사용하여 원하는 정보를 추출할 수 있습니다.

예를 들어, 구글 검색 결과에서 타이틀과 URL을 추출하는 코드는 다음과 같습니다.

import requests from bs4 import BeautifulSoup

import re query = "파이썬 크롤링"

# 검색어

url = "https://www.google.com/search?q=" + query

# HTTP GET 요청

req = requests.get(url)

# HTML 소스코드 파싱

soup = BeautifulSoup(req.content, "html.parser")

# 타이틀 추출

title = soup.find("title").get_text()

# URL 추출

url_regex = re.compile(r'(https?://\S+)')

urls = []

for a in soup.find_all("a", href=url_regex):

urls.append(a["href"])

print(title)

print(urls)

위 코드에서는 requests 모듈을 사용하여 구글 검색 결과 페이지에 HTTP GET 요청을 보내고,

BeautifulSoup 모듈을 사용하여 HTML 소스 코드를 파싱합니다.

그리고 re 모듈을 사용하여 URL을 추출합니다.

이 코드를 실행하면 구글 검색 결과에서 타이틀과 URL을 추출할 수 있습니다.

단, 이 코드는 구글 서비스에 대한 크롤링을 시도하는 것이므로,

해당 사이트의 이용약관을 확인하고 적법한 방법으로 크롤링하는 것이 중요합니다.

728x90

자바 JPA 트랜잭션 커밋(commit) (0)	2023.05.11
JPA(Entity Manager)는 자바에서 ORM(Object Relational Mapping) 기술을 지원하기 위한 API (0)	2023.05.11
[JPA 매커니즘] JpaRepository (0)	2023.05.11
[ SpringBoot ] ModelMapper 라이브러리 이용하기 (0)	2023.05.11
3-WAY 핸드셰이크 (0)	2023.05.11

이하나 커뮤니티