병렬처리

Crawling

[크롤링/11]Scrapy 병렬 처리 설정

2021.03.25

특정한 웹 사이트를 크롤링할 때 병렬 처리를 하는 것은 민폐다. 하지만 불특정 다수의 웹 사이트를 크롤링할 때는 병렬처리로 크롤링 시간을 단축할 수 있다. Scrapy의 기본 설정은 특정 웹 사이트를 크롤링하는 것에 맞춰져있다. 즉, 불특정 다수의 웹 사이트를 크롤링 하기에는 잘 맞지않다. 하지만 Scrapy는 비동기 아키텍처로 인해 빠른 broad crawling 광범위 크롤링에 좋은 성능을 보여준다. Priority Queue 사용 중지하기 SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.DownloaderAwarePriorityQueue' Priority Queue는 싱글 도메인 크롤링에 적합하다. CONCURRENT_REQUESTS(기본값 16) CONCURRENT_R..

[크롤링/11]Scrapy 병렬 처리 설정

티스토리툴바