목차
스크랩은 이전 네이버 퍼가기에서 부터 많은 사람들의 귀에 들어갔을 거라는 생각이 듭니다. 최근엔 웹 스크래핑을 직접 배우기 위해 파이썬을 공부하는 분들도 상당히 많아졌는데요. 스크래핑이란 기술은 컴퓨터가 텍스트나 링크 따위를 위치를 활용해 긁어오는 기술을 말합니다. 물론 파이썬을 배우지 않은 분들이 사용할 수 있는 방법을 한 번 살펴보려고 합니다.
WebScraper.io
웹 스크래핑을 웹 상에서 제공해주는 괜찮은 크롬 확장 프로그램입니다. 크롤링에는 일반적으로 두가지로 나뉘어 지는데, GET 방식과 POST 방식으로 나뉩니다. 링크를 누를 때마다 주소가 변하는 경우가 일반적으로 GET 방식인데 웹 표준화 방식으로 보안이 덜 필요한 경우 사용합니다. 웹스크래퍼는 get 방식을 활용하고 있습니다.
크롬 확장 프로그램 WebScraper 설치
일반적인 자료를 쉽게 스크랩(크롤링) 할 수 있는 확장 프로그램입니다. 설치하고 손쉽게 사용할 수 있다는 장점이 있는데 우선 확장프로그램을 설치 해 보도록 합시다.
스크래핑 방법
스크래핑 테스트용 사이트
WebScraper에서는 테스트용 사이트도 제공하고 있습니다. 테스트용 사이트에서는 일반 스토어 사이트, 페이지 링크가 있는 사이트, 팝업 링크가 있는 사이트 등 다양하게 활용하며 시험 해 볼 수 있는 테스트 사이트를 제공하고 있습니다.
F12 또는 우클릭 > 검사
웹 스크래핑은 자동으로 긁어오도록 하는 것이 주 기능이기 때문에 긁어올 수 있는 환경을 만드는 것이 굉장히 중요합니다. 첫 시작으로는 원하는 페이지에서 웹 스크래핑을 위한 작은 설정을 하기 위한 방법입니다. 크롬 환경에서 해당되는 내용이며, F12 버튼을 누르거나 마우스 우클릭 > 검사 버튼을 누르면 아래와 같은 화면을 볼 수 있습니다.
사이트맵 만들기
위 처럼 해당 페이지에서 F12를 누르면 개발자 도구가 나오는데, 설치를 제대로 했다면 아래와 같이 Web Scraper가 있는 것을 확인할 수 있습니다. 사이트맵 생성하기를 눌러서 이름은 아무거나 지어 봅시다.
사이트맵을 만들면서 시작 링크를 지정 해 주어야 합니다. 아래와 같이 변경합니다. 테스트용 제품의 링크는 아래와 같다는 것을 알 수 있습니다. 그리고 시작 페이지는 https://webscraper.io/test-sites/e-commerce/allinone 로 설정을 해 봅시다.
마무리
웹 크롤링을 위한 기본 설정이 끝났습니다. 크롬 확장 프로그램을 이용해서 사이트맵 생성까지 해 보았는데 다음 글에서는 실전 웹 크롤링을 진행 해 보도록 하겠습니다.
FAQ
네 무료입니다. 웹 스크래퍼 같은 경우 get 방식을 이용하면서 파이썬의 개발 지식이 필요 없이도 크롤링을 할 수 있도록 제공해주는 크롬 확장 프로그램입니다.
get 방식에서는 누구나 쉽게 따라할 수 있다고 생각이 듭니다. 어려울 수 있는 부분도 테스트를 할 수 있도록 웹 페이지를 제공하고 있기 때문에 많은 연습을 통해 능률은 향상 될 것 같습니다.
여느 출력 파일과 같은 csv 파일로 뽑아낼 수 있습니다.