본문 바로가기
First step/AI 기초반

[TIL]21.07.13 웹크롤링

by Joshua21 2021. 7. 13.

티스토리에 공부한 내용들을 정리중인데 웹사이트 주소가 포함된 ulr형식이 있으면 복사 붙여넣기가 안된다. 해서 dot(.)을 지우고 복사해서 붙여넣은후 다시 .을 넣어줬다.

 

import requests

from bs4 import BeautifulSoup

 

#웹페이지에서 텍스트만 불러오기

r=requests.get('http://wikidocs.net')
html=r.text
print(html)

 

# 랭킹 불러오기

import requests

 

outFp=None

outStr=""

 

outFp=open('movie.txt','w',encoding='utf-8')

response=requests.get('https://movie.navercom/movie/sdb/rank/rmovie.nhn')

html=response.text

 

from bs4 import BeautifulSoup

soup=BeautifulSoup(html,'html.parser')

Title_html=soup.select('div[class=tit3]')

print(Title_html)

 

for tag in soup.select('div[class=tit3]'):

    print(tag.text.strip())

    outFp.writelines(tag.text.strip()+'\n')

outFp.close()

#[<div class="tit3"> <a href="/movie/bi/mi/basic.nhn?code=184318" title="블랙 위도우">블랙 위도우</a> </div>, <div class="tit3"> 처럼 html코드가 불러와짐

 

 

#웹사이트에서 제목만 불러오기

import requests
from bs4 import BeautifulSoup
res=requests.get('http://v.media.daum.net/v/20170615203441266')
soup=BeautifulSoup(res.content, 'html.parser')
title=soup.find('title')
print(title.get_text())

 

#연습문제 네이버영화 랭킹 불러오기

response=requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn')
html=response.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(html,'html.parser')
Title_html=soup.select('div[class=tit3]')
#print(Title_html)
for tag in soup.select('div[class=tit3]'):
    print(tag.text.split())

# 데이터가 ['블랙', '위도우'] 처럼 구분되서 불러와짐

 

# 한글 텍스트만 받아와 movie라는 텍스트 파일로 저장하기

import requests

outFp=None
outStr=""

outFp=open('movie.txt','w',encoding='utf-8')
response=requests.get('https://movie.navercom/movie/sdb/rank/rmovie.nhn')
html=response.text

from bs4 import BeautifulSoup
soup=BeautifulSoup(html,'html.parser')
Title_html=soup.select('div[class=tit3]')
#print(Title_html)

for tag in soup.select('div[class=tit3]'):
    print(tag.text.strip())
    outFp.writelines(tag.text.strip()+'\n')
outFp.close()

 

#데이터가 블랙 위도우 처럼 불러와짐

'First step > AI 기초반' 카테고리의 다른 글

[TIL]21.07.15과적합  (0) 2021.07.15
[TIL]21.07.14keras로 실습하기  (0) 2021.07.14
[TIL] 21.07.13pandas 사용,  (0) 2021.07.13
[TIL]21.07.12Keras 1일차  (0) 2021.07.12
[TIL] 21.07.09퍼셉트론,Relu ,실습  (0) 2021.07.09