라이브러리/프레임워크의 종류
-
Anemone (RUBY)
깃 허브 저장소 주소 > github.com/chriskite/anemone
소개와 사용 예시 > www.rubyinside.com/web-spidering-with-anemone-1927.html
-
nokogiri(RUBY)
공식 홈페이지 > nokogiri.org/
RubyGems > rubygems.org/gems/nokogiri/versions/1.6.8
-
Scrapy(PYTHON)
공식 홈페이지>scrapy.org/
튜토리얼>docs.scrapy.org/en/latest/intro/tutorial.html
-
Jsoup(JAVA)
공식 홈페이지> jsoup.org/
Cook Book>jsoup.org/cookbook/
개인적으로 크롤링 프레임워크/라이브러리들이 튜토리얼을 CookBook이라고 하는게 정말 귀여운 것 같다
-
beautifulsoup(Python)
공식 홈페이지> www.crummy.com/software/BeautifulSoup/bs4/doc/
-
crawler4j(JAVA)
깃 허브 저장소> github.com/yasserg/crawler4j
이건 Python의 Scrapy와 비슷한 역할을 한다고 보면된다. Python에서도 Scrapy로 HTML를 추출하고, 파싱할 때 종종 Beautifulsoup을 사용하는 것처럼Java도 Crawler4j를 사용해서 HTML을 추출하고 Jsoup으로 파싱한다고 한다.
-
Apache Tika(JAVA/ HTML 외에도 다양한 파일에서 데이터 추출 가능)
공식 홈페이지> tika.apache.org/
-
Apache Nutch(JAVA/ 분산 처리 가능)
공식 홈페이지> nutch.apache.org/
-
node-crawler(Node.js)
npm> www.npmjs.com/package/crawler
깃 허브 레포지터리> github.com/bda-research/node-crawler
-
gocrawl(Go)
깃 허브 레포지터리> github.com/PuerkitoBio/gocrawl
README.md 한국어 번역> github.com/PuerkitoBio/gocrawl/blob/master/doc/ko/README.md
프레임워크와 라이브러리의 차이점
라이브러리와 프레임워크의 차이는 제어 프름에 대한 주도권이 누구에게/어디에 있느냐에 달려있다.
프레임워크는 전체적인 흐름을 스스로가 쥐고 있으며 사용자는 그 안에서 필요한 코드를 짜넣는 반면에 라이브러리는 사용자가 전체적인 흐름을 만들며 라이브러리를 가져다 쓰는 것이라고 할 수 있다.
프레임워크는 가져다가 사용한다기보다는 거기에 들어가서 사용한다는 느낌으로 접근할 수 있다.
참고: https://webclub.tistory.com/458
'Crawling' 카테고리의 다른 글
[크롤링/06] 인증이 필요한 페이지 (0) | 2021.03.22 |
---|---|
[크롤링/05]효율적인 크롤링 하는 방법 (0) | 2021.03.22 |
[크롤링/04] HTTP 기본 총 정리 (0) | 2021.03.22 |
[크롤링/02] 크롤링을 잘 하는 방법 (0) | 2021.03.22 |
[크롤링/01] 크롤러의 개념과 동작 (0) | 2021.03.22 |