웹 스크래핑 방법 무료로 쉽게 크롤링 WebScraper 셀렉터 설정

크롬 확장 프로그램을 설치하고 웹 스크래핑 무료로 크롤링 webscraper 셀렉터 설정하는 두번 째 시간입니다. 링크와 텍스트를 따로 구분하지 않아도 자동으로 내용을 잡을 수 있습니다. 크롤링을 쉽게하는 방법을 제공하고 있습니다

지난 시간에 파이썬을 배우지 않은 환경에서도 스크래핑을 할 수 있는 webscraper.io 의 크롬 확장 프로그램의 기본 설정에 대해서 알아 보았습니다. 웹 스크래핑의 경우 가변적인 다양한 설정을 하는 것이 가장 중요한데 이것은 셀렉터로 지정할 수 있습니다.

웹스크래핑 기본설정

지난 시간에 알려드렸듯 웹 스크래핑을 웹 상에서 제공해주는 괜찮은 크롬 확장 프로그램인데 파이썬을 사용하지 않는 환경이라는 것이 가장 큰 장점입니다.

웹 스크래핑 기본 설정 방법

sitemap 만들기 까지의 기본설정이 끝났으니 이제는 셀렉터를 활용한 긁어올 범위를 정해 보도록 하겠습니다.

셀렉터 설정 방법

사이트의 구조화와 셀렉터 설정

웹 서비스로 제공이 되는 사이트는 구조화 되어 있습니다. 사이트 구조를 파악하기 위해서 페이지를 요리조리 살펴봐야하는 점이 귀찮을 수 있는데요. 일반적으로 목록화 되어있기 때문에 어떤 것을 가져올지 셀렉터를 설정해야 합니다. 아래와 같이 셀렉터를 만들어 보세요.

셀렉터를 새로 만들고 ID 를 입력한 후 type을 엘레먼트 선택을 하게되면 긁어올 것을 설정할 수 있습니다. 엘레먼트에서 select 버튼을 누르고 긁어올 것을 한 번 선택하고, 이후 선택 방향으로 다음 제품 하나 더 선택 해 주세요. (이 작업은 제일 높은 차원의 하나씩 넘어갈 때의 목록을 말합니다.)

크롤링 셀렉터 설정

두 가지를 선택하면 나머지 것들도 일률적으로 선택이 됩니다. 이후 done selecting을 눌러주시면 일차적인 긁어올 것의 설정이 끝나는데요. 선택을 통해 목록을 구성한다고 생각하시면 됩니다. multiple 버튼을 체크 하셔야 복수로 선택이 됩니다.

이름 목록 설정

dddd 라고 설정한 것은 제품 목록입니다. 제품 목록 내의 화면에서 새로운 셀렉터를 설정해서 이름과 내용을 긁어 오도록 하겠습니다. dddd 내에서 새로 add new selector를 클릭 해 주세요. 이후 새로운 id를 입력해야 하는데요. name 이라고 설정 한 후 이름을 긁어오도록 하겠습니다.

id 를 name 으로 설정하였습니다. 이전과 마찬가지로 셀렉트 버튼을 이용해 자동으로 표시가 되는 것을 확인할 수 있습니다. 이번에는 multiple을 체크하지 않습니다. 복수 형태로 긁은 후 도돌이표처럼 돌아간다는 말인데 이번에는 다음 것을 긁기 위해서 바로 다음 항목으로 넘어가야 하기 때문이죠. done selecting 을 한 후 저장한 후 나옵니다.

가격 목록 설정

새로 add new selector를 누른 후 이번에는 가격을 긁어오도록 하겠습니다. 마찬가지로 done selecting 까지 설정 해 주시고 저장하고 넘어가도록 하겠습니다.

가격 목록 설정 하는법

설명 목록 설정

이제 마지막인 설명 목록을 한 번 가져와 보도록 하겠습니다. 마찬가지인데요. 아래와 같이 des라고 이름을 짓고 select 를 이용해서 설명 부분을 클릭 해 주엇습니다.

완성된 셀렉터 모습

셀렉팅이 완료된 모습은 아래와 같습니다. dddd 목록 중 하나의 제품에서 아래와 같이 세가지를 가져오겠다는 것입니다. name / price / des 를 가져온다는 말입니다.

완성된 셀렉터 모습

마무리 및 QnA

이번 글은 스크래핑 중 셀렉터 설정 까지 해 보았습니다. Multiple 설정을 비롯해서 헷갈리면서 궁금한 부분들이 꽤나 있을 것입니다. 하지만 하다보면 왜 설정을 해야하는지 보이니까 너무 걱정하지 마세요.

크롬 브라우저에서만 사용이 가능한가요?

네 그렇습니다. 크롬 확장 프로그램을 이용한 것이기 때문에 크롬을 이용해야지만 사용할 수 있습니다.

내장된 기능이 많은가요?

파이썬의 전체 기능을 다 구현하지는 못합니다. 기본적인 스크래핑 도구 정도로 생각하시면 좋습니다. 내장된 기능은 생각보다 적다는 것도 알아두시면 좋습니다.

웹 스크래핑 셀렉터 설정 시 오류가 뜹니다.

id를 입력하고 select를 이용해서 긁어올 부분을 클릭하시고 꼭 done selecting 버튼을 눌러주세요. 그렇지 않으면 다음으로 진행되지 않습니다.