먼저, requests와 BeautifulSoup 모듈을 사용하여 해당 웹사이트의 HTML 소스 코드를 가져와 파싱할 수 있습니다.
그리고 re 모듈을 사용하여 원하는 정보를 추출할 수 있습니다.
예를 들어, 구글 검색 결과에서 타이틀과 URL을 추출하는 코드는 다음과 같습니다.
import requests from bs4 import BeautifulSoup
import re query = "파이썬 크롤링"
# 검색어
url = "https://www.google.com/search?q=" + query
# HTTP GET 요청
req = requests.get(url)
# HTML 소스코드 파싱
soup = BeautifulSoup(req.content, "html.parser")
# 타이틀 추출
title = soup.find("title").get_text()
# URL 추출
url_regex = re.compile(r'(https?://\S+)')
urls = []
for a in soup.find_all("a", href=url_regex):
urls.append(a["href"])
print(title)
print(urls)
위 코드에서는 requests 모듈을 사용하여 구글 검색 결과 페이지에 HTTP GET 요청을 보내고,
BeautifulSoup 모듈을 사용하여 HTML 소스 코드를 파싱합니다.
그리고 re 모듈을 사용하여 URL을 추출합니다.
이 코드를 실행하면 구글 검색 결과에서 타이틀과 URL을 추출할 수 있습니다.
단, 이 코드는 구글 서비스에 대한 크롤링을 시도하는 것이므로,
해당 사이트의 이용약관을 확인하고 적법한 방법으로 크롤링하는 것이 중요합니다.
'코딩 배우기' 카테고리의 다른 글
자바 JPA 트랜잭션 커밋(commit) (0) | 2023.05.11 |
---|---|
JPA(Entity Manager)는 자바에서 ORM(Object Relational Mapping) 기술을 지원하기 위한 API (0) | 2023.05.11 |
[JPA 매커니즘] JpaRepository (0) | 2023.05.11 |
[ SpringBoot ] ModelMapper 라이브러리 이용하기 (0) | 2023.05.11 |
3-WAY 핸드셰이크 (0) | 2023.05.11 |
댓글