사전 설치 요구사항
Beautiful Soup 모듈 사용시, 추가적인 Beautiful Soup 모듈 설치를 필요로 한다.
pip install bs4
HTML 파싱 예제
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://httpbin.org'
r = requests.get(url)
# beautiful soup 초기화
soup = BeautifulSoup(r.text, "html.parser")
# 태그로 찾기 (첫번째 항목)
mr = soup.find("a")
print mr.get_text() # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print mr.string
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print mr[0]
# id로 찾기
mr = soup.find(id="AUTHOR")
print mr.get_text()
# class로 찾기
mr = soup.find(class_="bash")
print mr.get_text()
mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다
print mr.get_text()
# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print mr
테스트 환경
- OS : Windows 7
- Python 버전 : 2.7