IT

웹 사이트에서 데이터를 스크랩하는 가장 좋은 방법은 무엇입니까?

lottoking 2020. 8. 9. 09:15
반응형

웹 사이트에서 데이터를 스크랩하는 가장 좋은 방법은 무엇입니까? [닫은]


웹 사이트에서 콘텐츠를 추출해야 애플리케이션이 애플리케이션 프로그래밍 인터페이스 나 해당 데이터에 프로그래밍 방식으로 액세스 할 수있는 다른 방법을 제공하지 않습니다.

페이지 스크래핑 및 웹 데이터 세트 구축을위한 클릭 앤 고 기능 현관을 제공하는 Import.io 라는 유용한 타사 도구를 찾았습니다 . 유일한 것은 내 데이터를 로컬에 보관하고 구독 계획에 가입하고 싶지 않다는 것입니다. .

이 회사는 웹 페이지를 스크래핑하고 데이터 세트를 구축하는 데 어떤 기술을 사용합니까? 일부 웹 스크래핑 프레임 워크 pjscrape & Scrapy 가 기능을 제공 할 수 있음을 발견했습니다.


좋은 웹 스크래핑 프레임 워크로 시작하고 싶을 것입니다. 나중에 너무 제한적이라고 할 수 있고 자신의 라이브러리 스택을 모을 수 있고 스크래핑 경험이 많지 디자인이 pjscrape 또는 더 많은 나질 것입니다.

참고 : 여기서는 기본적으로 크롤링 및 스크래핑이라는 용어를 서로 바꿔 사용할 수 있습니다. 이 Quora 질문에 대한 제 답변의 사본입니다. 꽤 깁니다.

도구

선호하는 브라우저에 따라 Firebug 또는 Chrome 개발 도구가 매우 익숙해집니다. 이는 데이터를 가져 오는 사이트를 탐색하고 찾고있는 데이터가 포함 된 URL과 응답을 구성하는 데이터 형식을 절대적으로 제공합니다.

HTTP와 HTML에 대한 좋은 실무 지식이 필요하며 중간 프록시 소프트웨어에서 괜찮은 사람을 찾고 싶을 것입니다. HTTP 요청 및 응답을 검사하고 쿠키와 세션 정보 및 쿼리 변수가 전달되는 방식을 사용할 수 있습니다. Fiddler ( http://www.telerik.com/fiddler ) 및 Charles Proxy ( http://www.charlesproxy.com/ )는 일반적으로 사용되는 도구입니다. 저는 mitmproxy ( http://mitmproxy.org/ )를 많이 사용 합니다. 마우스보다는 키보드에 가깝기 때문입니다.

다양한 코드를 시험해 볼 수있는 유형 콘솔 / 쉘 / REPL 유형 환경은 매우 유용 할 것입니다. 이와 같은 리버스 엔지니어링 작업은 시행 착오가 많고 쉽게 수행 할 수있는 워크 플로가합니다.

언어

PHP는 기본적으로 나와 외형이 작업에 적합하지 않고 영역에서 라이브러리 / 프레임 워크 지원이 열악합니다. Python (Scrapy는 훌륭한 출발점입니다)과 Clojure / Clojurescript (놀라 울면서 강력하고 생산적이지만 학습이 많음) 은이 문제에 대한 훌륭한 언어입니다. 새로운 언어를 배우지 않고 이미 Javascript를 알고 있으므로 JS를 고수하는 것이 좋습니다. 나는 pjscrape를 사용하지 않을 읽고 문서를 빨리 ​​으면 꽤 좋아 보인다. 그것은 잘 맞으며 아래에서 설명하는 문제에 대한 훌륭한 솔루션을 구현합니다.

정규식에 대한 참고 사항 : HTML을 구문 분석하기 위해 정규식을 사용하지 않습니다. 많은 것이 이미 정규식에 익숙하기 때문에 수행합니다. 큰 실수입니다. xpath 또는 css 선택기를 사용하여 html을 탐색하고 정규식 만 사용하여 html 노드 내부의 실제 텍스트에서 데이터를 추출합니다. 이것은 이미 당신에게 명백 할 수 있습니다. 시도해 보면 금방 명백해입니다. 그러나 많은 사람들이 어떤 MM이 길을가는 데 많은 시간을 사용할 수 있습니다. xpath 또는 css 선택기를 두려워하지 않습니다. 정규식보다 배우기 정확한 문제를 해결하도록 설계되었습니다.

자바 펼쳐가 많은 사이트

예전에는 http 요청을하고 HTML 응답을 구문 분석해야합니다. 이제 표준 HTML HTTP 요청 / 응답과 사이트의 javascript 부분에 의해 생성 된 대상 HTTP 호출이 된 혼합 사이트를 거의 확실하게 처리해야합니다. 여기에서 프록시 소프트웨어와 firebug / devtools의 네트워크 탭이 매우 편리합니다. 이에 대한 응답은 html 또는 json 일 수있는 드물게 xml 또는 다른 것입니다.

이 문제에 대한 두 가지 접근 방식이 있습니다.

낮은 수준의 접근 방식 :

사이트 자바 펼쳐가 호출하는 ajax URL과 응답의 모양을 제공하고 요청을 직접 만들 수 있습니다. 따라서 http://example.com/foobar 에서 html을 가져와 데이터 한 조각을 추출한 다음 http://example.com/api/baz?foo=b ... 에서 json 응답을 가져와야 할 수 있습니다. 다른 데이터를 가져옵니다. 올바른 쿠키 또는 세션 매개 변수를 전달해야합니다. 매우 드물지만 미친 ajax 호출에 필요한 일부 매개 변수가 사이트의 자바에서 수행 된 계산의 결과 일 수 있습니다. 리버스 엔지니어링은 성 가실 수 있습니다.

브라우저 브라우저 접근 방식 :

HTML에있는 데이터와 ajax 호출에서 데이터를 제공해야하는 이유는 무엇입니까? 모든 세션과 쿠키 데이터를 관리하고 있습니까? 사이트를 탐색 할 때 브라우저와 사이트 자바 펼쳐가 그렇게 할 필요가 없습니다. 그게 요점입니다.

phantomjs와 같은 헤드리스 브라우저 엔진에 페이지를로드하면 페이지가로드되고 javascript를 실행하고 모든 ajax 호출이 완료되면 알려줍니다. 클릭을 트리거하는 데 필요한 경우 자체 자바 펼쳐보기를 삽입하거나 적절한 데이터를로드하기 위해 사이트 자바 펼쳐를 트리거하는 데 필요한 모든 것을 삽입 할 수 있습니다.

이제 두 가지 옵션이 있습니다. 완성 된 html을 내고 파싱하거나 파싱 및 데이터 형식화를 수행하고 데이터를 삽입합니다 (아마도 json 형식). 이 두 가지 옵션을 자유롭게 혼합 할 수도 있습니다.

어떤 접근 방식이 가장 좋습니까?

그에 따라 저수준 접근 방식에 익숙하고 편안해야합니다. 브라우저 브라우저 접근 방식은 무엇이든 작동하며 구현하기 훨씬 쉬우 며 스크래핑에서 가장 까다로운 문제 중 일부가 사라질 것입니다. 또한 이해해야 할 매우 복잡한 기계입니다. HTTP 요청 및 응답 아니라입니다 요청, 배포 된 자바 확장, 자체 코드 및 배포 프로세스와의 양방향 작용.

더 많은 규모가 훨씬 느리지 만 다른 도메인이 거의없는 것입니다. 요청 속도를 제한하는 경우 단일 도메인의 경우 처리해야 할 시간이 있습니다.

속도 제한 / 봇 동작

당신은 이것을 아주 잘 알고 있어야합니다. 합리적인 속도로 대상 도메인에 요청해야합니다. 웹 사이트를 크롤링 할 때 잘 작동하는 봇을 작성해야합니다. 이는 robots.txt를 존중하고 요청으로 서버를 망치지 않는 것을 의미합니다. 여기서 실수 나 과실은 서비스 거부 공격으로 간주 될 수 있으므로 매우 비 윤리적입니다. 허용되는 속도는 요청하는 사람에 따라 다릅니다. 1req / s는 Google 크롤러가 실행되는 최대 값이지만 Google이 아니며 Google만큼 환영받지 못할 수도 있습니다. 합리적으로 천천히 유지하십시오. 각 페이지 요청 사이에 2 ~ 5 초를 제안합니다.

봇을 식별하는 사용자 에이전트 문자열로 요청을 식별하고 봇의 목적을 설명하는 웹 페이지가 있습니다. 이 URL은 에이전트 문자열에 포함됩니다.

사이트에서 귀하를 차단하려는 경우 쉽게 차단할 수 있습니다. 스마트 엔지니어는 봇을 쉽게 식별 할 수 있으며, 몇 분의 작업으로 인해 몇 주 동안의 작업으로 인해 스크래핑 코드가 변경되거나 불가능해질 수 있습니다. 관계가 적대적이라면 대상 사이트의 똑똑한 엔지니어가 크롤러를 작성하는 천재 엔지니어를 완전히 방해 할 수 있습니다. 스크래핑 코드는 본질적으로 취약하며 쉽게 악용됩니다. 이 응답을 유발하는 것은 어쨌든 거의 확실히 비 윤리적이므로 잘 작동하는 봇을 작성하고 이에 대해 걱정하지 마십시오.

테스팅

단위 / 통합 테스트 담당자가 아니십니까? 너무 나쁘다. 이제 하나가되어야합니다. 사이트는 자주 변경되며 코드도 자주 변경됩니다. 이것은 도전의 큰 부분입니다.

현대 웹 사이트를 스크래핑하는 데는 많은 움직이는 부분이 있으며, 좋은 테스트 방법이 많은 도움이 될 것입니다. 이러한 유형의 코드를 작성하는 동안 발생하는 많은 버그는 손상된 데이터를 자동으로 반환하는 유형입니다. 회귀를 확인하기위한 좋은 테스트 없이는 사용자가 알아 차리지 못한 채 한동안 쓸모없는 손상된 데이터를 데이터베이스에 저장하고 있음을 알게 될 것입니다. 이 프로젝트를 통해 데이터 유효성 검사 (사용할 좋은 라이브러리 찾기) 및 테스트에 매우 익숙해 질 것입니다. 포괄적 인 테스트가 필요하고 테스트하기 매우 어려운 문제를 결합하는 다른 문제는 많지 않습니다.

테스트의 두 번째 부분에는 캐싱 및 변경 감지가 포함됩니다. 코드를 작성하는 동안 이유없이 같은 페이지에 대해 서버를 계속해서 망치고 싶지는 않습니다. 단위 테스트를 실행하는 동안 코드가 손상되었거나 웹 사이트가 재 설계 되었기 때문에 테스트가 실패하는지 알고 싶습니다. 관련된 URL의 캐시 된 사본에 대해 단위 테스트를 실행합니다. 캐싱 프록시는 여기서 매우 유용하지만 적절하게 구성하고 사용하기가 까다 롭습니다.

사이트가 변경되었는지도 알고 싶습니다. 사이트를 재 설계하고 크롤러가 손상되면 캐시 된 사본에 대해 실행 중이기 때문에 단위 테스트가 여전히 통과됩니다! 라이브 사이트에 대해 드물게 실행되는 또 다른 소규모 통합 테스트 세트 또는 정확한 문제를 기록하고 문제에 대해 경고하고 크롤링을 중지하는 크롤링 코드의 양호한 로깅 및 오류 감지가 필요합니다. 이제 캐시를 업데이트하고 단위 테스트를 실행하고 변경해야 할 사항을 확인할 수 있습니다.

법적인 문제

어리석은 일을한다면 여기 법은 약간 위험 할 수 있습니다. 법이 관련되면 정기적으로 wget 및 curl을 "해킹 도구"라고 부르는 사람들을 상대하는 것입니다. 당신은 이것을 원하지 않습니다.

상황의 윤리적 현실은 브라우저 소프트웨어를 사용하여 URL을 요청하고 일부 데이터를 보는 것과 자체 소프트웨어를 사용하여 URL을 요청하고 일부 데이터를 보는 것 사이에 차이가 없다는 것입니다. Google은 세계에서 가장 큰 스크래핑 회사이며 사랑을 받고 있습니다. 사용자 에이전트에서 봇 이름을 식별하고 웹 크롤러의 목표와 의도에 대해 공개하면 법률이 Google이 무엇인지 이해하므로 도움이 될 것입니다. 가짜 사용자 계정을 만들거나 사이트의 영역에 액세스하면 안되는 (robots.txt에 의해 "차단"되거나 어떤 종류의 승인 악용으로 인해) 잘못된 작업을 수행하는 경우 비 윤리적 인 작업을하고 있음을 인식하십시오. 그리고 기술에 대한 법의 무지는 여기서 매우 위험 할 것입니다. 말도 안되는 상황이지만 실제 상황입니다.

성실한 시민으로서 새로운 검색 엔진을 구축하고 실수를 저질렀거나 소프트웨어에 버그가있어 해커로 보일 수 있습니다. 현재의 정치적 현실을 고려할 때 원하는 것이 아닙니다.

어쨌든이 거대한 벽의 글을 쓸 사람은 누구일까요?

제 인생에서 웹 크롤링 관련 코드를 많이 작성했습니다. 저는 컨설턴트, 직원 및 창업 창업자로서 10 년 이상 웹 관련 소프트웨어 개발을 해왔습니다. 초기에는 펄 크롤러 / 스크래퍼와 PHP 웹 사이트를 작성했습니다. XMLHTTPRequest가 아이디어가되기 전에 Jesse James Garrett이 이름을 ajax로 지정하기 전에 csv 데이터를 웹 페이지에로드하는 숨겨진 iframe을 임베드 할 때 ajax를 수행했습니다. jQuery 이전, json 이전. 저는 30 대 중반인데,이 사업에서는 고대인으로 여겨집니다.

저는 대규모 크롤링 / 스크래핑 시스템을 두 번 작성했습니다. 한 번은 미디어 회사 (Perl)의 대규모 팀용으로, 최근에는 소규모 팀의 경우 검색 엔진 스타트 업 (Python / Javascript)의 CTO로 작성했습니다. 저는 현재 컨설턴트로 일하고 있으며 주로 Clojure / Clojurescript (일반적으로 훌륭한 전문가 언어이며 크롤러 / 스크래퍼 문제를 즐겁게 만드는 라이브러리가 있음)로 코딩합니다.

나는 성공적인 크롤링 방지 소프트웨어 시스템도 작성했습니다. 원하지 않는 봇을 식별하고 방해하려는 경우 스크랩 불가능한 사이트를 작성하는 것은 매우 쉽습니다.

나는 다른 유형의 소프트웨어보다 크롤러, 스크레이퍼 및 파서를 작성하는 것을 좋아합니다. 도전적이고 재미 있으며 놀라운 것을 만드는 데 사용할 수 있습니다.


예, 직접 할 수 있습니다. 페이지의 소스를 파악하고 원하는 방식으로 구문 분석하는 것입니다.

다양한 가능성이 있습니다. 좋은 콤보 사용 파이썬 요청 (urllib2가 위에 구축, 그것이 urllib.requestPython3에) 및 BeautifulSoup4 또한 요소를 선택하기 위해 방법을 가지고 있으며, 허용하는 CSS 선택기 :

import requests
from BeautifulSoup4 import BeautifulSoup as bs
request = requests.get("http://foo.bar")
soup = bs(request.text) 
some_elements = soup.find_all("div", class_="myCssClass")

일부는 xpath 구문 분석 또는 jquery와 같은 pyquery, lxml 또는 다른 것을 선호 합니다 .

원하는 데이터가 일부 JavaScript에 의해 생성 되면 위의 내용이 작동하지 않습니다. python-ghost 또는 Selenium이 필요합니다. 후자 는 PhantomJS와 결합되어 훨씬 가볍고 설치가 간단하며 사용하기 쉽습니다.

from selenium import webdriver
client = webdriver.PhantomJS()
client.get("http://foo")
soup = bs(client.page_source)

자신의 솔루션을 시작하는 것이 좋습니다. 그렇게함으로써 Scrapy의 이점을 이해하게 될 것입니다.

추신 : scrapely 살펴보기 : https://github.com/scrapy/scrapely

pps : 프로그래밍 지식없이 시각적으로 정보 추출을 시작하려면 Portia를 살펴보십시오 : https://github.com/scrapinghub/portia

참고 URL : https://stackoverflow.com/questions/22168883/whats-the-best-way-of-scraping-data-from-a-website

반응형