2장. 여러 페이지 크롤링
Updated:
Query
-
웹 서버에 GET 요청을 보낼 때 조건에 맞는 정보를 표현하기 위한 변수
movie.naver.com/movie/bi/mi/basic.nhn?code=167865 code라는 변수에 영화 코드가 담겨 해당 영화 정보를 보여준다
params
url = "https://www.google.com/search"
results = requests.get(url, params = {'q':'movie'})
- params 매개변수에 딕셔너리를 전달함으로 쿼리 지정
code = ...
results = requests.get(url, params = {'movie':code})
- 영화 코드를 먼저찾고 그 코드를 requests를 이용하여 새로운 정보를 요청한다
Tag Attribute
<div class ="my_class" id="my_id">제목</div>
- HTML에는 여러 종류의 태그와 속성이 있다
attrs
div = soup.find("div")
print(div.attrs)
- attrs 멤버변수를 사용해서 태그의 속성을 확인한다
print(div['class'])
- attrs 딕셔너리 키로 인덱싱하여 태그 속성에 접근할 수 있다
a = soup.find("a")
href_url = a["href"]
- href속성을 이용하여 웹페이지에 존재하는 하이퍼링크 URL을 알 수 있다
Children, Name
- children은 어떤 태그가 포함하고 있는 태그
- name은 어떤 태그의 이름을 의미 ```html
span1
span2
p tag
```python
children = soup.find("div").children
for child = children :
print(child.name)
# span, span, p, img가 각각 출력된다
- div태그를 그 div에 포함된 태그들의 리스트를 얻는다
- name속성을 이용해서 이름을 알수 있다
- 태그가 존재하지 않으면 None값을 얻는다
Leave a comment