크롤링 시작 위치가 여러 곳인 경우 WebScraper

본문 하단 별점을 남겨주세요
개의 투표
평균 별 개 만큼 도움된 글입니다

웹 크롤링을 하는 과정은 복잡하게 구성될 수 있습니다. 동일한 하나의 URL에서 필요한 메타 데이터만 수집 한다면, 기존 하던 방식과 같이 하나의 주소 페이지만 참고하면 됩니다. 하지만 한 번의 크롤링 중, 여러 곳에서 메타 데이터를 수집해 스크랩을 해야 할 경우에는, 처음에 만들어 둔 사이트맵에 추가된 하나의 주소를 포함한 다중 URL 주소 추가를 필요로 합니다. 웹 크롤링 중에서 여러 URL 데이터를 추가해 크롤링 추가 위치를 다중으로 잡는 방법을 살펴 보도록 합시다.

      1

      기본 작업 사이트맵 생성

      사이트맵 생성하기
      1

      사이트맵 생성하기

      웹 크롤링 작업을 위해서 기본적으로 해야하는 작업인 사이트맵을 생성 해 줍니다. 사이트맵 이름과 크롤링을 시작하는 URL 주소를 입력 해 줍니다. 크롬 확장 프로그램 Scraper를 이용한 웹 크롤링이 처음이신 분들은 ‘웹 크롤링 자동화 시작하기’ 글을 참고 해 주세요.

      2

      사이트맵 다중 URL 설정

      다중 URL 설정하기
      1

      다중 URL 설정하기

      사이트맵 다중 URL 시작을 위해서 셀렉터를 선택하기 전, Edit metada 버튼을 눌러 줍니다.

      사이트맵과 시작 URL
      2

      사이트맵과 시작 URL 화면

      처음 시작인 사이트맵 이름 설정과 시작 URL 주소를 확인할 수 있는 화면으로 넘어오는 걸 알 수 있습니다. 해당 크롤러 사이트맵의 시작 주소는 computers/laptops로 하나만 설정되어 있는 것을 확인할 수 있습니다.

      3

      사이트맵 시작 위치 추가하기

      사이트맵 링크 이동
      1

      사이트맵 링크 이동

      사이트맵의 다중 시작 URL 추가 위치를 computers/tablets로 설정 해 보겠습니다. 해당 주소를 클릭해 URL 위치로 이동 해 주세요.

      크롤링 시작 링크 복사
      2

      크롤링 시작 링크 복사

      위 화면과 같이 이동한 위치의 URL 주소를 복사합니다.

      시작 URL 추가하기
      3

      시작 URL 추가하기

      아래 화면 우측에 + 버튼을 눌러 시작 URL을 입력할 수 있도록 추가합니다.

      시작 URL 붙여넣기
      4

      시작 URL 붙여넣기

      Start URL이 두 개로 확장 된 것을 확인할 수 있습니다. 아래 Start URL에 위에서 복사한 링크 주소를 붙여넣기 해 줍니다.

      URL 추가하기
      5

      다중 시작 URL 더 추가하기

      시작 위치가 3개 이상이라도 위와 같이 입력이 가능합니다. 우측 하단 + 버튼을 눌러 확장하거나 – 버튼을 눌러 제거 할 수 있습니다.

      FAQ

      Web Scraper 다중 시작 URL 추가 하는법

      사이트맵 다중 URL 시작을 위해서 셀렉터를 선택하기 전, Edit metada 버튼을 눌러 Start URL 항목을 추가해 여러 URL을 입력합니다.

      파이썬 설치하지 않고 웹 크롤링 하는법

      크롬 확장 프로그램인 Web Scraper를 이용하면, 번거롭게 파이썬을 설치하거나 복잡한 코딩 공부를 하지 않더라도 GET 형식의 웹사이트를 빠르고 쉽게 스크랩 할 수 있습니다.

      크롤링 사례 연습할 수 있는 페이지

      Web Scraper에서는 크롤링을 연습할 수 있도록 테스트 페이지를 제공합니다. Test Sites를 다양한 형태로 제공하고 있기 때문에 웹크롤링 사례로 연습하기에 많은 도움이 됩니다.

      참고

      다른 글 더 보기

      이 글이 도움이 되었나요?

      별점을 남겨주세요

      명에게 별 개 만큼 도움된 글입니다

      이 글의 첫 별점을 남겨주세요