사전 설치 요구사항


Beautiful Soup 모듈 사용시, 추가적인 Beautiful Soup 모듈 설치를 필요로 한다.

pip install bs4


HTML 파싱 예제

# -*- coding: utf-8 -*-
 
from bs4 import BeautifulSoup
import requests
 
# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://httpbin.org'
r = requests.get(url)
 
 
# beautiful soup 초기화
soup = BeautifulSoup(r.text, "html.parser")
 
# 태그로 찾기 (첫번째 항목)
mr = soup.find("a")
print mr.get_text() # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print mr.string
 
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print mr[0]
 
# id로 찾기
mr = soup.find(id="AUTHOR")
print mr.get_text()
 
# class로 찾기
mr = soup.find(class_="bash")
print mr.get_text()
mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다
print mr.get_text()
 
# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print mr


테스트 환경
 - OS : Windows 7
 - Python 버전 : 2.7


,