HTTP 완벽 가이드 9장 웹 로봇

Web Dev/7. 네트워크 2021. 2. 6. 15:55

728x90

웹 로봇이란?
- 사람과의 상호작용 없이 연속된 웹 트랜잭션들을 자동으로 수행하는 소프트웨어 프로그램
- 얘네도 http 프로토콜을 따른다
- 이런 로봇들은 스스로 마음이 있는것처럼 행동하고, 크롤러,스파이더,웜,봇 등으로 불린다
크롤러와 크롤링
- 웹 링크를 재귀적으로 따라다니는 로봇을 크롤러 혹은 스파이더라고 부르는데 HTML 하이퍼링크를따라다니기 때문이다
- 따라다니기때문에 순환에 빠질수도있다.
로봇의 HTTP
- 로봇은 다른 HTTP 클라이언트 프로그램이랑 비슷하다.
- 요청을 보내고, 응답을 받는다
- User-Agent에 무슨로봇인지 말을 해줘야한다(요청 보낼때)
- User-Agent 타기팅
  - 웹 관리자들은 많은 로봇이 그들의 사이트를 방문하게 될것임을 명심하고, 로봇들로부터의 요청을 예상해야한다.
로봇 차단하기
- 로봇이 와가지고 아무거나 다 뒤져보고 가는게 문제가 되서 "Robots Execlusion Standard" 가 세워졌다. robots.txt라고도 부른다
- 웹서버의 루트에 얘를 두고 어떤부분에 접근할 수 있는지 정의한다. 로봇은 이파일을요청하고 있으면 얘를 따라서 접근가능한 문서만 접근한다. 없으면 그냥한다.
로봇 에티켓
- 로봇이 지켜야할 에티켓이 있다.
- 신원 식별 - 누군지 말을 해라
- 동작: 돌리고 나면 분명히 사고를 쳐서연락이 올테니 긴장하고, 대비하고, 로봇을 감시하고 로그를 확인하고, 배우고 조정해야한다.
- 스스로를 제한해라: url을 필터링 하는 방법들을 활용해라
- 루프와 중복을 견뎌내기 위한 문제 해결방법을 고안해라
- 신뢰성: 로봇을 실사용하기 전에 최대한 테스트를 많이하고 로봇이 실패했을때도 잘 동작하도록 설계해라
- 소통!: 많은 웹 관리자 등을 화나게 할테니 이를 대비한 소통준비를 해라
현대적인 검색엔진의 아키텍쳐
- 오늘날 검색엔진들은 그들이갖고 있는 전 세계의 웹페이지들에 대해 풀텍스트 색인(full-text indexes)라고 하는 복잡한 로컬 데이터베이스를 생성한다. 이 index는 웹의 모든 문서에 대해 일종의 카드 카탈로그처럼 동작한다.
- 검색엔진 크롤러는 웹페이지들을 수집해서 집으로 가져와서 이 풀 텍스트 색인에 추가한다.
- 검색엔진 사용자들은 웹 검색 게이트웨이를통해 풀텍스트 색인에 대한 질의를 보낸다.

'Web Dev > 7. 네트워크' 카테고리의 다른 글

HTTP 완벽 가이드 11장 클라이언트 식별과 쿠키 (0)	2021.02.21
HTTP 완벽 가이드 10장 HTTP/2.0 (0)	2021.02.06
HTTP 완벽 가이드 8장 통합점 (0)	2021.01.30
HTTP 완벽 가이드 7장 캐쉬 (0)	2021.01.30
HTTP 완벽 가이드 5장 웹서버 (0)	2021.01.17

ABOUT ME

MyTutorials MyTutorials

'Web Dev > 7. 네트워크' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'Web Dev > 7. 네트워크' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바