정의 HTTP는 클라이언트와 서버 사이에 이루어지는 요청/응답(request/response) 프로토콜이다. 예를 들면, 클라이언트인 웹 브라우저가 HTTP를 통하여 서버로부터 웹페이지(HTML)나 그림 정보를 요청하면, 서버는 이 요청에 응답하여 필요한 정보를 해당 사용자에게 전달하게 된다. 이 정보가 모니터와 같은 출력 장치를 통해 사용자에게 나타나는 것이다. 위키 백과 HTTP - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. HTTP(HyperText Transfer Protocol, 문화어: 초본문전송규약, 하이퍼본문전송규약)는 W3 상에서 정보를 주고받을 수 있는 프로토콜이다. 주로 HTML 문서를 주고받는 데에 ko.wikipedia.org 개발자를 위한 웹 기술 한국어 ..
라이브러리/프레임워크의 종류 Anemone (RUBY) 깃 허브 저장소 주소 > github.com/chriskite/anemone chriskite/anemone Anemone web-spider framework. Contribute to chriskite/anemone development by creating an account on GitHub. github.com 소개와 사용 예시 > www.rubyinside.com/web-spidering-with-anemone-1927.html Easy Web Spidering in Ruby with Anemone Easy Web Spidering in Ruby with Anemone By Ric Roberts / July 2, 2009 Anemone i..
크롤링 잘하는 방법 콘텐츠 수집 → HTTP 통신(백엔드) 스크래핑 → 추출한 HTML 분석(프론트엔드) HTTP/HTML 관련 지식 없이 쉽게 크롤링/스크래핑을 하게 해주는 다양한 라이브러리와 프레임워크가 존재 그러나 제대로 크롤러를 개발하고 운영하려면 라이브러리/프레임워크의 표준 기능만으로는 부족하거나 예외 상황에 대처할 수 없는 경우가 많음 따라서 크롤링을 잘하기위해서는 HTTP통신과 HTML등 웹 기술에대한 지식이 필요 빠른 HTTP/CSS 이해를 위한 무료 강의(칸 아카데미) HTML/CSS: 웹 페이지 제작이란? | 컴퓨터 프로그래밍 | 컴퓨팅 | Khan Academy 웹페이지를 만들기 위해 HTML과 CSS를 사용하는 방법을 배워 봅시다. HTML은 내용을 둘러싸는데 이용하고 브라우저에게 ..
크롤러 인터넷에 있는 콘텐츠를 기계적으로 수집해 데이터로 저장 파일, 데이터베이스 등에 저장 검색 서비스, 데이터 분석, 머신러닝 등에 활용 참고하면 좋은 자료 - 클라우드 페어 클라우드 페어에서는 크롤링의 개념 뿐만 아니라 나쁜 봇과 좋은 봇의 차이를 알려준다. 사용 예시 구글, 네이버 등 포탈은 콘텐츠를 크롤링해서 저장해서 검색 서비스를 제공 특정 분야나 용도에 초점을 맞춘 검색 서비스도 존재(네이버쇼핑의 최저가 사이트 등 가격 비교) RSS 리더 등 회사 인터넷 내부의 서버를 크롤링해서 사내 문서를 검색 네이버 서치와 관련된 정보를 얻을 수 있는 Naver Search Advisor 웹마스터 가이드 - 네이버 서치어드바이저 네이버 검색을 위한 웹마스터 가이드 입니다. 웹마스터 가이드 라인은, 네이버..