사전 설치 요구사항
Beautiful Soup 모듈 사용시, 추가적인 Beautiful Soup 모듈 설치를 필요로 한다.
pip install bs4
HTML 파싱 예제
# -*- coding: utf-8 -*- from bs4 import BeautifulSoup import requests # request 모듈을 사용하여 웹 페이지의 내용을 가져온다 url = 'http://httpbin.org' r = requests.get(url) # beautiful soup 초기화 soup = BeautifulSoup(r.text, "html.parser") # 태그로 찾기 (첫번째 항목) mr = soup.find("a") print mr.get_text() # get_text() 함수는 도큐먼트 혹은 특정 태그 밑에 있는 모든 텍스트를 추출한다 print mr.string # 태그로 찾기 (모든 항목) mr = soup.find_all("a") print mr[0] # id로 찾기 mr = soup.find(id="AUTHOR") print mr.get_text() # class로 찾기 mr = soup.find(class_="bash") print mr.get_text() mr = soup.find("code", class_="bash") # id와 class를 조합하여 찾을 수도 있다 print mr.get_text() # 찾기 결과에 대해 다시 한번 찾기를 수행할 수 있다 tables = soup.find("ul") mr = tables.find("li") print mr
테스트 환경 - OS : Windows 7 - Python 버전 : 2.7
'1. 연구 모듈 > Python' 카테고리의 다른 글
[wxPython] 외부 프로그램의 표준 출력/에러를 표시하는 template (0) | 2017.05.13 |
---|---|
[Python] 파이썬에서 문자열 처리 (파이썬 2.X) (0) | 2017.05.04 |
[Python] HTTP 요청하기 (requests 모듈 사용) (0) | 2016.12.29 |
[Python] HTTP 요청하기 (httplib 모듈 사용) (0) | 2016.12.13 |
[Python] Python에서 패키지 관리 시스템(PIP) 사용하기 (0) | 2016.10.18 |