Lim Junhyeong

Lim Junhyeong

준형이 블로그

2장. 여러 페이지 크롤링

Updated: July 31, 2020

실습_2. 여러 페이지 크롤링

Query

웹 서버에 GET 요청을 보낼 때 조건에 맞는 정보를 표현하기 위한 변수

movie.naver.com/movie/bi/mi/basic.nhn?code=167865
code라는 변수에 영화 코드가 담겨 해당 영화 정보를 보여준다

params

url = "https://www.google.com/search"
results = requests.get(url, params = {'q':'movie'})

params 매개변수에 딕셔너리를 전달함으로 쿼리 지정

code = ...
results = requests.get(url, params = {'movie':code})

영화 코드를 먼저찾고 그 코드를 requests를 이용하여 새로운 정보를 요청한다

Tag Attribute

<div class ="my_class" id="my_id">제목</div>

HTML에는 여러 종류의 태그와 속성이 있다

attrs

div = soup.find("div")
print(div.attrs)

attrs 멤버변수를 사용해서 태그의 속성을 확인한다

print(div['class'])

attrs 딕셔너리 키로 인덱싱하여 태그 속성에 접근할 수 있다

a = soup.find("a")
href_url = a["href"]

href속성을 이용하여 웹페이지에 존재하는 하이퍼링크 URL을 알 수 있다

Children, Name

children은 어떤 태그가 포함하고 있는 태그
name은 어떤 태그의 이름을 의미 ```html

span1 span2

p tag

```python
children = soup.find("div").children
for child = children :
  print(child.name)
  # span, span, p, img가 각각 출력된다

div태그를 그 div에 포함된 태그들의 리스트를 얻는다
name속성을 이용해서 이름을 알수 있다
태그가 존재하지 않으면 None값을 얻는다

Share on

Twitter Facebook LinkedIn

Leave a comment

You may also enjoy

mariaDB 환경설정 계정 생성 및 권한 부여

May 23 2021

마리아디비에 접속 mysql -u root -p Enter password: 패스워드 입력

프로젝트에 필요한 Git

February 17 2021

프로젝트에 필요한 Git

여러개의 원격 저장소(git)

February 17 2021

git remote add alt https://xxxx.xxxx.xxxx.git git remote update git pull alt master

벽 부수고 이동하기 4_16946

January 14 2021

백준 Java