웹 크롤링 예제

웹 크롤링 예제

크롤러는 이전 섹션에서 설명한 것처럼 크롤링 전략이 양호해야 할 뿐만 아니라 최적화된 아키텍처도 가져야 합니다. 연구 목적으로 웹 크롤러를 사용하는 경우 보다 자세한 비용 이점 분석이 필요하며 크롤링 위치와 크롤링 속도 등을 결정할 때 윤리적 고려 사항을 고려해야 합니다. [40] 월드 와이드 웹에 관해서 나쁜 봇과 좋은 봇이 모두 있다. CDN 대역폭을 소비하고 서버 리소스를 차지하며 콘텐츠를 훔치기 때문에 피하고 싶은 나쁜 봇입니다. 좋은 봇 (또한 웹 크롤러로 알려진) 다른 한편으로는, 그들은 구글과 같은 검색 엔진으로 색인에 콘텐츠를 얻기의 중요한 부분이기 때문에주의, 빙, 야후. 상위 10개 웹 크롤러 및 사용자 에이전트에 대해 자세히 확인하여 올바르게 처리하고 있는지 확인하십시오. 조와 가르시아 몰리나는 평균 신선도 면에서 통일된 정책이 시뮬레이션된 웹과 실제 웹 크롤링 모두에서 비례 정책을 능가한다는 놀라운 결과를 입증했습니다. 직관적으로, 추론은 웹 크롤러가 주어진 시간 프레임에서 크롤링 할 수있는 페이지 수에 제한이 있기 때문에 (1) 페이지를 덜 자주 업데이트하지 않고 빠르게 변화하는 페이지에 너무 많은 새 크롤링을 할당하고 (2) 빠르게 c의 신선도를 유지한다는 것입니다. 행잉 페이지는 자주 변경되는 페이지보다 짧은 기간 동안 지속됩니다.

즉, 비례 정책은 페이지를 자주 업데이트하는 크롤링에 더 많은 리소스를 할당하지만 전반적인 새로 고침 시간이 줄어듭니다. 웹 스파이더 또는 인터넷 봇이라고도 하는 웹 크롤러는 콘텐츠를 인덱싱하기 위해 자동화된 방식으로 웹을 탐색하는 프로그램입니다. 크롤러는 콘텐츠, 페이지의 링크, 끊어진 링크, 사이트맵 및 HTML 코드 유효성 검사와 같은 모든 종류의 데이터를 볼 수 있습니다. 그들의 주요 크롤링 봇 중 하나는 Facebot, 광고 성능을 개선 하기 위해 설계 되었습니다. 서버 측 소프트웨어에서 생성되는 가능한 URL의 수로 인해 웹 크롤러가 중복 콘텐츠를 검색하지 못하도록 했습니다. HTTP GET(URL 기반) 매개 변수의 끝없는 조합이 존재하며, 그 중 작은 선택만 실제로 고유한 콘텐츠를 반환합니다. 예를 들어 간단한 온라인 사진 갤러리는 URL의 HTTP GET 매개 변수를 통해 지정된 세 가지 옵션을 사용자에게 제공할 수 있습니다. 이미지를 정렬하는 네 가지 방법, 세 가지 축소판 크기 선택, 두 개의 파일 형식 및 사용자가 제공한 콘텐츠를 비활성화하는 옵션이 있는 경우 동일한 콘텐츠 집합에 48개의 다른 URL을 액세스할 수 있으며, 모두 사이트에 링크될 수 있습니다. 이 수학적 조합은 고유한 콘텐츠를 검색하기 위해 비교적 사소한 스크립트 변경 사항의 끝없는 조합을 정렬해야 하므로 크롤러에게 문제가 발생합니다. 크롤링을 시작하기 전에 이러한 컴퓨터 프로그램의 작업을 설정해야 합니다. 따라서 모든 순서는 미리 정의됩니다. 그런 다음 크롤러는 이러한 명령을 자동으로 실행합니다.

인덱스는 출력 소프트웨어를 통해 액세스할 수 있는 크롤러의 결과로 만들어집니다. 조는 액세스 간격으로 10초를 사용하며[31] 와이어 크롤러는 기본값으로 15초를 사용합니다. [37] MercatorWeb 크롤러는 적응형 예의 정책을 따릅니다: 지정된 서버에서 문서를 다운로드하는 데 몇 초가 걸린 경우 크롤러는 다음 페이지를 다운로드하기 전에 10t초 동안 기다립니다. [38] 딜 외. 1초를 사용한다. [39] Koster가 언급했듯이 웹 크롤러의 사용은 여러 작업에 유용하지만 일반 커뮤니티에 대한 가격이 함께 제공됩니다. [34] 웹 크롤러 사용 비용은 다음과 같습니다: Googlebot과 같은 웹 크롤러는 크롤링 및 색인 생성을 통해 SERP에서 웹 사이트 순위를 매기는 목적을 달성합니다.

0

You may also like