나도코딩 데이터분석 및 시각화 강의를 완강하고 이번 주부터는 크롤링 강의를 듣기로 했다.
섹션 0 : 강의소개
📌 크롤링 주의사항
- 크롤링한 데이터를 무분별하게 상업적으로 이용하지 않는다.
- 대상 서버에 부담을 주지 않도록 한다.
섹션 1 : 환경설정
- 파이썬과 vscode는 이미 설치되어 있어서 무난하게 설정을 끝냈다.
섹션 2 : 준비운동
1) 크롤링을 위한 정말 쉬운 HTML - 뉴스해킹
- 크롤링에서 자주 사용되는 태그 종류
- div : 구간 나누기
- a : 링크
- h1 : 제목
- p : 문단
- ul, li : 목록
- 뉴스 헤드라인을 변경해 보기
2) HTML을 파이썬으로 가져오자 : requests
- requests
: html 통신을 위한 파이썬 라이브러리
- 외부 라이브러리이기 때문에 설치해야 한다. 난 아나콘다가 깔려 있어서 이미 설치되어 있었다.
📍설치 방법 : vscode 터미널에 pip install requests 입력
- 사용법
import requests
response = requests.get("링크")
html = response.text
같은 에러를 만난 분이 있어서 답변대로 하니 해결됐다.
3) 내가 원하는 태그를 선택하자 : beutifulsoup
- beautifulsoup : html 분석을 위한 파이썬 라이브러리
- 외부 라이브러리이기 때문에 설치해야 하는데, requests와 같은 이유로 이미 설치되어 있었다.
📍설치 방법 : vscode 터미널에 pip install beautifulsoup4 입력
- 사용법 : 해당 id인 태그 속의 텍스트 가져오기
import requests
from bs4 import Beautifulsoup
response = requests.get("링크")
html = response.text
soup = Beautifulsoup(html, 'html.parser')
word = soup.select_one('#id명') #원하는 태그 선택
print(word.text)
- select : 여러 개 선택, select_one은 하나만 선택
- 페이지 이름을 가져오기 : head 태그 내 title id 사용
4) 크롤링에서 가장 중요한 css 선택자
- 태그 선택자 : 태그 이름으로 선택
- id 선택자 : #id명으로 사용
- 클래스 선택자 : .클래스명으로 사용
- 자식 선택자 : 별명이 없을 때 사용. ex) 부모 태그 > 자식 태그
크롤링은 처음인데 재밌었다!
'학회&동아리 > FORZA' 카테고리의 다른 글
[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week3 (0) | 2023.07.10 |
---|---|
[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week2 (0) | 2023.06.30 |
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week6 (2) | 2023.05.27 |
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week5 (0) | 2023.05.21 |
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week4 (0) | 2023.05.14 |