[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week1

독학/[동아리-FORZA] 데이터 분석

[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week1

최연재 2023. 6. 21. 22:30

나도코딩 데이터분석 및 시각화 강의를 완강하고 이번 주부터는 크롤링 강의를 듣기로 했다.

https://www.inflearn.com/course/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%ED%81%AC%EB%A1%A4%EB%A7%81-%EA%B8%B0%EC%B4%88/dashboard

[무료] 이것이 진짜 크롤링이다 - 기본편 - 인프런 | 강의

크롤링을 처음 배우는 분들을 위해 ① 가장 쉽고 ② 가장 친절하게 설명해 드립니다. 크롤링은 정말로 재미있습니다. 제가 책임지겠습니다. 믿고 따라와 보세요., - 강의 소개 | 인프런

www.inflearn.com

섹션 0 : 강의소개

📌 크롤링 주의사항

크롤링한 데이터를 무분별하게 상업적으로 이용하지 않는다.
대상 서버에 부담을 주지 않도록 한다.

섹션 1 : 환경설정

- 파이썬과 vscode는 이미 설치되어 있어서 무난하게 설정을 끝냈다.

섹션 2 : 준비운동

1) 크롤링을 위한 정말 쉬운 HTML - 뉴스해킹

- 크롤링에서 자주 사용되는 태그 종류

div : 구간 나누기
a : 링크
h1 : 제목
p : 문단
ul, li : 목록

- 뉴스 헤드라인을 변경해 보기

텍스트 부분을 더블클릭하면 쉽게 수정할 수 있다. 새로고침하면 원래대로 돌아온다.

2) HTML을 파이썬으로 가져오자 : requests

- requests

: html 통신을 위한 파이썬 라이브러리

- 외부 라이브러리이기 때문에 설치해야 한다. 난 아나콘다가 깔려 있어서 이미 설치되어 있었다.

📍설치 방법 : vscode 터미널에 pip install requests 입력

- 사용법

import requests

response = requests.get("링크")
html = response.text

https://www.inflearn.com/questions/388018/%EC%95%88%EB%85%95%ED%95%98%EC%84%B8%EC%9A%94-import-%EB%B6%80%EB%B6%84%EC%97%90%EC%84%9C-%EC%A7%88%EB%AC%B8%EC%9E%88%EC%8A%B5%EB%8B%88%EB%8B%A4

안녕하세요 import 부분에서 질문있습니다 - 인프런 | 질문 & 답변

안녕하세요! 이렇게 유익한 강의 해주셔서 감사드려요 :)다름아니라, import requests에서 requests부분에 노란 물결무늬가 쳐져 질문드리고 싶습니다.ㅠ 마우스 커서를 가져다 대니 아래와 같이 떴습

www.inflearn.com

같은 에러를 만난 분이 있어서 답변대로 하니 해결됐다.

3) 내가 원하는 태그를 선택하자 : beutifulsoup

- beautifulsoup : html 분석을 위한 파이썬 라이브러리

- 외부 라이브러리이기 때문에 설치해야 하는데, requests와 같은 이유로 이미 설치되어 있었다.

📍설치 방법 : vscode 터미널에 pip install beautifulsoup4 입력

- 사용법 : 해당 id인 태그 속의 텍스트 가져오기

import requests
from bs4 import Beautifulsoup

response = requests.get("링크")
html = response.text
soup = Beautifulsoup(html, 'html.parser')
word = soup.select_one('#id명') #원하는 태그 선택
print(word.text)

select : 여러 개 선택, select_one은 하나만 선택

- 페이지 이름을 가져오기 : head 태그 내 title id 사용

4) 크롤링에서 가장 중요한 css 선택자

태그 선택자 : 태그 이름으로 선택
id 선택자 : #id명으로 사용
클래스 선택자 : .클래스명으로 사용
자식 선택자 : 별명이 없을 때 사용. ex) 부모 태그 > 자식 태그

크롤링은 처음인데 재밌었다!

'독학 > [동아리-FORZA] 데이터 분석' 카테고리의 다른 글

[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week3 (0)	2023.07.10
[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week2 (0)	2023.06.30
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week6 (2)	2023.05.27
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week5 (0)	2023.05.21
[FORZA STUDY] 나도코딩 - 데이터분석 및 시각화 week4 (0)	2023.05.14

현재글[FORZA STUDY] 스타트 코딩 - 이것이 진짜 크롤링이다 기본편 week1

Hello World!

소프트웨어학부 대학생의 공부 + 활동 기록

후기, 자료구조, github, 오블완, IT개론, 소프트웨어공학, 웹프로그래밍, 혼공학습단, cpp, 알고리즘, 혼공, 리눅스, jpa, 파이썬, 코딩테스트, 혼공자, 클론코딩, 티스토리챌린지, 이산수학, 웹프로그래밍기초,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Hello World!