학회&동아리/FORZA

[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week1

최연재 2023. 6. 21. 22:30

나도코딩 데이터분석 및 시각화 강의를 완강하고 이번 주부터는 크롤링 강의를 듣기로 했다.

 

https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B8%B0%EC%B4%88/dashboard

 

[무료] 이것이 진짜 크롤링이다 - 기본편 - 인프런 | 강의

크롤링을 처음 배우는 분들을 위해 ① 가장 쉽고 ② 가장 친절하게 설명해 드립니다. 크롤링은 정말로 재미있습니다. 제가 책임지겠습니다. 믿고 따라와 보세요., - 강의 소개 | 인프런

www.inflearn.com


섹션 0 : 강의소개

📌 크롤링 주의사항

  • 크롤링한 데이터를 무분별하게 상업적으로 이용하지 않는다.
  • 대상 서버에 부담을 주지 않도록 한다.

섹션 1 : 환경설정

- 파이썬과 vscode는 이미 설치되어 있어서 무난하게 설정을 끝냈다.


섹션 2 : 준비운동

1) 크롤링을 위한 정말 쉬운 HTML - 뉴스해킹

- 크롤링에서 자주 사용되는 태그 종류

  • div : 구간 나누기
  • a : 링크
  • h1 : 제목
  • p : 문단
  • ul, li : 목록

- 뉴스 헤드라인을 변경해 보기

F12로 개발자도구를 열어서  변경할 부분의 html 코드를 찾는다.
텍스트 부분을 더블클릭하면 쉽게 수정할 수 있다. 새로고침하면 원래대로 돌아온다.
다른 예시입니다.

 

2) HTML을 파이썬으로 가져오자 : requests

- requests

: html 통신을 위한 파이썬 라이브러리

- 외부 라이브러리이기 때문에 설치해야 한다. 난 아나콘다가 깔려 있어서 이미 설치되어 있었다.

📍설치 방법 : vscode 터미널에 pip install requests 입력

- 사용법

import requests

response = requests.get("링크")
html = response.text

이렇게 에러가 났다..

https://www.inflearn.com/questions/388018/%EC%95%88%EB%85%95%ED%95%98%EC%84%B8%EC%9A%94-import-%EB%B6%80%EB%B6%84%EC%97%90%EC%84%9C-%EC%A7%88%EB%AC%B8%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4

 

안녕하세요 import 부분에서 질문있습니다 - 인프런 | 질문 & 답변

안녕하세요! 이렇게 유익한 강의 해주셔서 감사드려요 :)다름아니라, import requests에서 requests부분에 노란 물결무늬가 쳐져 질문드리고 싶습니다.ㅠ 마우스 커서를 가져다 대니 아래와 같이 떴습

www.inflearn.com

같은 에러를 만난 분이 있어서 답변대로 하니 해결됐다.

 

3) 내가 원하는 태그를 선택하자 : beutifulsoup

- beautifulsoup : html 분석을 위한 파이썬 라이브러리

- 외부 라이브러리이기 때문에 설치해야 하는데, requests와 같은 이유로 이미 설치되어 있었다.

📍설치 방법 : vscode 터미널에 pip install beautifulsoup4 입력

- 사용법 : 해당 id인 태그 속의 텍스트 가져오기

import requests
from bs4 import Beautifulsoup

response = requests.get("링크")
html = response.text
soup = Beautifulsoup(html, 'html.parser')
word = soup.select_one('#id명') #원하는 태그 선택
print(word.text)

  • select : 여러 개 선택, select_one은 하나만 선택

- 페이지 이름을 가져오기 : head 태그 내 title id 사용

터미널에 "네이버 뉴스"라는 텍스트가 나오는 것을 확인 가능

 

 

4) 크롤링에서 가장 중요한 css 선택자

  • 태그 선택자 : 태그 이름으로 선택
  • id 선택자 : #id명으로 사용
  • 클래스 선택자 : .클래스명으로 사용
  • 자식 선택자 : 별명이 없을 때 사용. ex) 부모 태그 > 자식 태그

크롤링은 처음인데 재밌었다!