목차
웹 크롤링을 하는 과정은 복잡하게 구성될 수 있습니다. 동일한 하나의 URL에서 필요한 메타 데이터만 수집 한다면, 기존 하던 방식과 같이 하나의 주소 페이지만 참고하면 됩니다. 하지만 한 번의 크롤링 중, 여러 곳에서 메타 데이터를 수집해 스크랩을 해야 할 경우에는, 처음에 만들어 둔 사이트맵에 추가된 하나의 주소를 포함한 다중 URL 주소 추가를 필요로 합니다. 웹 크롤링 중에서 여러 URL 데이터를 추가해 크롤링 추가 위치를 다중으로 잡는 방법을 살펴 보도록 합시다.
기본 작업 사이트맵 생성
사이트맵 생성하기
웹 크롤링 작업을 위해서 기본적으로 해야하는 작업인 사이트맵을 생성 해 줍니다. 사이트맵 이름과 크롤링을 시작하는 URL 주소를 입력 해 줍니다. 크롬 확장 프로그램 Scraper를 이용한 웹 크롤링이 처음이신 분들은 ‘웹 크롤링 자동화 시작하기’ 글을 참고 해 주세요.
사이트맵 다중 URL 설정
다중 URL 설정하기
사이트맵 다중 URL 시작을 위해서 셀렉터를 선택하기 전, Edit metada 버튼을 눌러 줍니다.
사이트맵과 시작 URL 화면
처음 시작인 사이트맵 이름 설정과 시작 URL 주소를 확인할 수 있는 화면으로 넘어오는 걸 알 수 있습니다. 해당 크롤러 사이트맵의 시작 주소는 computers/laptops로 하나만 설정되어 있는 것을 확인할 수 있습니다.
사이트맵 시작 위치 추가하기
사이트맵 링크 이동
사이트맵의 다중 시작 URL 추가 위치를 computers/tablets로 설정 해 보겠습니다. 해당 주소를 클릭해 URL 위치로 이동 해 주세요.
크롤링 시작 링크 복사
위 화면과 같이 이동한 위치의 URL 주소를 복사합니다.
시작 URL 추가하기
아래 화면 우측에 + 버튼을 눌러 시작 URL을 입력할 수 있도록 추가합니다.
시작 URL 붙여넣기
Start URL이 두 개로 확장 된 것을 확인할 수 있습니다. 아래 Start URL에 위에서 복사한 링크 주소를 붙여넣기 해 줍니다.
다중 시작 URL 더 추가하기
시작 위치가 3개 이상이라도 위와 같이 입력이 가능합니다. 우측 하단 + 버튼을 눌러 확장하거나 – 버튼을 눌러 제거 할 수 있습니다.
FAQ
사이트맵 다중 URL 시작을 위해서 셀렉터를 선택하기 전, Edit metada 버튼을 눌러 Start URL 항목을 추가해 여러 URL을 입력합니다.
크롬 확장 프로그램인 Web Scraper를 이용하면, 번거롭게 파이썬을 설치하거나 복잡한 코딩 공부를 하지 않더라도 GET 형식의 웹사이트를 빠르고 쉽게 스크랩 할 수 있습니다.
Web Scraper에서는 크롤링을 연습할 수 있도록 테스트 페이지를 제공합니다. Test Sites를 다양한 형태로 제공하고 있기 때문에 웹크롤링 사례로 연습하기에 많은 도움이 됩니다.