Crawling

Crawling

[크롤링/04] HTTP 기본 총 정리

정의 HTTP는 클라이언트와 서버 사이에 이루어지는 요청/응답(request/response) 프로토콜이다. 예를 들면, 클라이언트인 웹 브라우저가 HTTP를 통하여 서버로부터 웹페이지(HTML)나 그림 정보를 요청하면, 서버는 이 요청에 응답하여 필요한 정보를 해당 사용자에게 전달하게 된다. 이 정보가 모니터와 같은 출력 장치를 통해 사용자에게 나타나는 것이다. 위키 백과 HTTP - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. HTTP(HyperText Transfer Protocol, 문화어: 초본문전송규약, 하이퍼본문전송규약)는 W3 상에서 정보를 주고받을 수 있는 프로토콜이다. 주로 HTML 문서를 주고받는 데에 ko.wikipedia.org 개발자를 위한 웹 기술 한국어 ..

Crawling

[크롤링/03] 라이브러리/프레임워크

라이브러리/프레임워크의 종류 Anemone (RUBY) 깃 허브 저장소 주소 > github.com/chriskite/anemone chriskite/anemone Anemone web-spider framework. Contribute to chriskite/anemone development by creating an account on GitHub. github.com 소개와 사용 예시 > www.rubyinside.com/web-spidering-with-anemone-1927.html Easy Web Spidering in Ruby with Anemone Easy Web Spidering in Ruby with Anemone By Ric Roberts / July 2, 2009 Anemone i..

Crawling

[크롤링/02] 크롤링을 잘 하는 방법

크롤링 잘하는 방법 콘텐츠 수집 → HTTP 통신(백엔드) 스크래핑 → 추출한 HTML 분석(프론트엔드) HTTP/HTML 관련 지식 없이 쉽게 크롤링/스크래핑을 하게 해주는 다양한 라이브러리와 프레임워크가 존재 그러나 제대로 크롤러를 개발하고 운영하려면 라이브러리/프레임워크의 표준 기능만으로는 부족하거나 예외 상황에 대처할 수 없는 경우가 많음 따라서 크롤링을 잘하기위해서는 HTTP통신과 HTML등 웹 기술에대한 지식이 필요 빠른 HTTP/CSS 이해를 위한 무료 강의(칸 아카데미) HTML/CSS: 웹 페이지 제작이란? | 컴퓨터 프로그래밍 | 컴퓨팅 | Khan Academy 웹페이지를 만들기 위해 HTML과 CSS를 사용하는 방법을 배워 봅시다. HTML은 내용을 둘러싸는데 이용하고 브라우저에게 ..

Crawling

[크롤링/01] 크롤러의 개념과 동작

크롤러 인터넷에 있는 콘텐츠를 기계적으로 수집해 데이터로 저장 파일, 데이터베이스 등에 저장 검색 서비스, 데이터 분석, 머신러닝 등에 활용 참고하면 좋은 자료 - 클라우드 페어 클라우드 페어에서는 크롤링의 개념 뿐만 아니라 나쁜 봇과 좋은 봇의 차이를 알려준다. 사용 예시 구글, 네이버 등 포탈은 콘텐츠를 크롤링해서 저장해서 검색 서비스를 제공 특정 분야나 용도에 초점을 맞춘 검색 서비스도 존재(네이버쇼핑의 최저가 사이트 등 가격 비교) RSS 리더 등 회사 인터넷 내부의 서버를 크롤링해서 사내 문서를 검색 네이버 서치와 관련된 정보를 얻을 수 있는 Naver Search Advisor 웹마스터 가이드 - 네이버 서치어드바이저 네이버 검색을 위한 웹마스터 가이드 입니다. 웹마스터 가이드 라인은, 네이버..

박한결
'Crawling' 카테고리의 글 목록 (2 Page)