ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • HTTP 완벽 가이드 9장 웹 로봇
    Web Dev/7. 네트워크 2021. 2. 6. 15:55
    728x90
    • 웹 로봇이란? 
      • 사람과의 상호작용 없이 연속된 웹 트랜잭션들을 자동으로 수행하는 소프트웨어 프로그램
      • 얘네도 http 프로토콜을 따른다
      • 이런 로봇들은 스스로 마음이 있는것처럼 행동하고, 크롤러,스파이더,웜,봇 등으로 불린다
    • 크롤러와 크롤링
      • 웹 링크를 재귀적으로 따라다니는 로봇을 크롤러 혹은 스파이더라고 부르는데 HTML 하이퍼링크를따라다니기 때문이다
      • 따라다니기때문에 순환에 빠질수도있다. 
    • 로봇의 HTTP
      • 로봇은 다른 HTTP 클라이언트 프로그램이랑 비슷하다. 
      • 요청을 보내고, 응답을 받는다
      • User-Agent에 무슨로봇인지 말을 해줘야한다(요청 보낼때)
      • User-Agent 타기팅
        • 웹 관리자들은 많은 로봇이 그들의 사이트를 방문하게 될것임을 명심하고, 로봇들로부터의 요청을 예상해야한다. 
    • 로봇 차단하기
      • 로봇이 와가지고 아무거나 다 뒤져보고 가는게 문제가 되서 "Robots Execlusion Standard" 가 세워졌다. robots.txt라고도 부른다
      • 웹서버의 루트에 얘를 두고 어떤부분에 접근할 수 있는지 정의한다. 로봇은 이파일을요청하고 있으면 얘를 따라서 접근가능한 문서만 접근한다. 없으면 그냥한다.
    • 로봇 에티켓
      • 로봇이 지켜야할 에티켓이 있다. 
      • 신원 식별 - 누군지 말을 해라
      • 동작: 돌리고 나면 분명히 사고를 쳐서연락이 올테니 긴장하고, 대비하고, 로봇을 감시하고 로그를 확인하고, 배우고 조정해야한다. 
      • 스스로를 제한해라: url을 필터링 하는 방법들을 활용해라
      • 루프와 중복을 견뎌내기 위한 문제 해결방법을 고안해라
      • 신뢰성: 로봇을 실사용하기 전에 최대한 테스트를 많이하고 로봇이 실패했을때도 잘 동작하도록 설계해라
      • 소통!: 많은 웹 관리자 등을 화나게 할테니 이를 대비한 소통준비를 해라
    • 현대적인 검색엔진의 아키텍쳐
      • 오늘날 검색엔진들은 그들이갖고 있는 전 세계의 웹페이지들에 대해 풀텍스트 색인(full-text indexes)라고 하는 복잡한 로컬 데이터베이스를 생성한다. 이 index는 웹의 모든 문서에 대해 일종의 카드 카탈로그처럼 동작한다. 
      • 검색엔진 크롤러는 웹페이지들을 수집해서 집으로 가져와서 이 풀 텍스트 색인에 추가한다. 
      • 검색엔진 사용자들은 웹 검색 게이트웨이를통해 풀텍스트 색인에 대한 질의를 보낸다.

    댓글

Designed by Tistory.