2장. 여러 페이지 크롤링

Updated:

실습_2. 여러 페이지 크롤링

Query

  • 웹 서버에 GET 요청을 보낼 때 조건에 맞는 정보를 표현하기 위한 변수

    movie.naver.com/movie/bi/mi/basic.nhn?code=167865
    code라는 변수에 영화 코드가 담겨 해당 영화 정보를 보여준다
    

params

url = "https://www.google.com/search"
results = requests.get(url, params = {'q':'movie'})
  • params 매개변수에 딕셔너리를 전달함으로 쿼리 지정
code = ...
results = requests.get(url, params = {'movie':code})
  • 영화 코드를 먼저찾고 그 코드를 requests를 이용하여 새로운 정보를 요청한다

Tag Attribute

<div class ="my_class" id="my_id">제목</div>
  • HTML에는 여러 종류의 태그와 속성이 있다

attrs

div = soup.find("div")
print(div.attrs)
  • attrs 멤버변수를 사용해서 태그의 속성을 확인한다
print(div['class'])
  • attrs 딕셔너리 키로 인덱싱하여 태그 속성에 접근할 수 있다
a = soup.find("a")
href_url = a["href"]
  • href속성을 이용하여 웹페이지에 존재하는 하이퍼링크 URL을 알 수 있다

Children, Name

  • children은 어떤 태그가 포함하고 있는 태그
  • name은 어떤 태그의 이름을 의미 ```html
span1 span2

p tag

```python
children = soup.find("div").children
for child = children :
  print(child.name)
  # span, span, p, img가 각각 출력된다
  • div태그를 그 div에 포함된 태그들의 리스트를 얻는다
  • name속성을 이용해서 이름을 알수 있다
  • 태그가 존재하지 않으면 None값을 얻는다

Leave a comment