사전 설치 요구사항
Beautiful Soup 모듈 사용시, 추가적인 Beautiful Soup 모듈 설치를 필요로 한다.
pip install bs4
HTML 파싱 예제
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
# request 모듈을 사용하여 웹 페이지의 내용을 가져온다
url = 'http://httpbin.org'
r = requests.get(url)
# beautiful soup 초기화
soup = BeautifulSoup(r.text, "html.parser")
# 태그로 찾기 (첫번째 항목)
mr = soup.find("a")
print mr.get_text() # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다
print mr.string
# 태그로 찾기 (모든 항목)
mr = soup.find_all("a")
print mr[0]
# id로 찾기
mr = soup.find(id="AUTHOR")
print mr.get_text()
# class로 찾기
mr = soup.find(class_="bash")
print mr.get_text()
mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다
print mr.get_text()
# 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다
tables = soup.find("ul")
mr = tables.find("li")
print mr
테스트 환경 - OS : Windows 7 - Python 버전 : 2.7
'1. 연구 모듈 > Python' 카테고리의 다른 글
| [wxPython] 외부 프로그램의 표준 출력/에러를 표시하는 template (0) | 2017.05.13 |
|---|---|
| [Python] 파이썬에서 문자열 처리 (파이썬 2.X) (0) | 2017.05.04 |
| [Python] HTTP 요청하기 (requests 모듈 사용) (0) | 2016.12.29 |
| [Python] HTTP 요청하기 (httplib 모듈 사용) (0) | 2016.12.13 |
| [Python] Python에서 패키지 관리 시스템(PIP) 사용하기 (0) | 2016.10.18 |


