웹마스터 블로그
구글 검색과 웹에 대한 최신 소식을 전합니다.
로봇 배제 프로토콜 (REP) 표준 공식화
2020년 4월 3일 금요일
(
원문
게시일: 2019년 7월 1일)
로봇 배제 프로토콜(REP: Robots Exclusion Protocol)은 25년 동안 웹의 가장 기본적이고 중요한 콤포넌트 중 하나였습니다. 웹사이트 소유자는 REP로
웹 크롤러
같은 자동화된 클라이언트가 사이트의 일부나 전체를 액세스하는 것을 차단할 수 있습니다.
1994년 웹마스터
마르티즌 코스터
(Martijn Koster)는 자신의 사이트에 크롤러 접근이 폭증하자 첫 표준을 만들었습니다. 다른 웹마스터들의 피드백을 수용하여 REP라는 이름으로 세상에 내놓았고, 이후 검색 엔진에서도 REP를 채택해 웹사이트 소유자가 서버 리소스를 쉽게 관리할 수 있게 되었습니다.
그러나 REP는 공식
인터넷 표준이
되지는 못했고 개발자들은 오랫동안 프로토콜을 조금씩 다르게 해석해왔습니다. 또, REP는 요즘 발생하는 예외 상황에 대처하도록 업데이트되지 않았습니다. 이는 웹사이트 소유자를 혼란스럽게 만드는 문제가 되었습니다. 사실상 표준이 모호해서 규칙을 정확히 작성하기 어렵기 때문입니다.
구글은 웹사이트를 만들고 운영하는 분들이 크롤러를 어떻게 제어할지 신경쓰지 않고 인터넷 경험을 더 풍부하게 만드는 일에 집중하도록 지원하고 싶었습니다. 그래서 프로토콜의 원작성자, 웹마스터, 검색 엔진 서비스 제공자들과 함께 최신 웹에서 REP를 사용하는 방법을 정리하여 IETF에 제출했습니다.
구글에서 제안한 REP 초안은 robots.txt 규칙에 기반한 20년 이상의 경험을 반영하고 있습니다. 구체적으로는 구글봇과 주요 크롤러를 비롯해 REP를 사용하는 약 5억 개 웹사이트에서 사용하는 규칙을 반영하였습니다. 웹사이트 운영자가 사이트의 어떤 부분에 크롤링을 허용하여 사용자들에게 노출할 것인지 세밀하게 결정할 수 있습니다. 1994년에 생성된 규칙을 변경하는 것은 아니고 그동안 정의되지 않았던 robots.txt 파싱 및 매칭의 모든 시나리오를 정의하고 최신 웹에 맞게 확장하는 것입니다. 특히 다음과 같은 특징이 있습니다.
모든
URI 기반 전송 프로토콜
은 robots.txt를 사용할 수 있습니다. 더 이상 HTTP로 제한되지 않으며 FTP 또는
CoAP
에도 사용할 수 있습니다.
개발자는 최소 첫 500
KiB
의 robots.txt를 파싱해야 합니다. 최대 파일 크기를 정의하면 커넥션이 너무 오랫동안 열려 있지 않게 되므로 서버에 불필요한 부담이 줄어듭니다.
최대 캐싱 시간을 24시간 또는 캐시 명령값(사용 가능한 경우)으로 따로 정의할 수 있습니다. 웹사이트 소유자는 원할 때마다 robots.txt를 업데이트할 수 있으며 크롤러는 불필요한 robots.txt 요청을 줄일 수 있습니다. 예를 들어, HTTP 캐시 제어 헤더를 사용하여 캐싱 시간을 정할 수 있습니다.
새로운 표준에서는 서버 장애로 robots.txt 파일에 액세스할 수 없는 경우에도 차단된 웹페이지가 적절한 기간동안 크롤링되지 않도록 규정하고 있습니다.
또한 인터넷 초안에서
ABNF
(augmented Backus-Naur Form)를 업데이트하여 robots.txt 구문을 더 알맞게 정의할 수 있도록 했습니다. 이는 개발자가 파싱하는 데 중요합니다.
Request for Comments의 약자인 RFC는 말 그대로 의견을 요청하기 위한 것입니다. 구글은 인터넷 기본 구성 요소에 관심 있는 개발자들의 의견을 받고자 IETF에 초안을 업로드했습니다. 이 작업은 웹 콘텐츠 작성자가 구글봇이 어떤 정보에 접근할 수 있는지 그리고 무엇을 검색 결과에 표시할 수 있는지 제어할 수 있는 권한을 주는 것이 목표이기 때문에 여러분의 의견을 듣는 것이 중요합니다.
의견, 질문이 있거나 인사말을 남기고 싶다면
트위터
와
웹마스터 커뮤니티
(
오프라인
및 온라인)로 연락주시기 바랍니다.
게시물 작성자:
헤너 젤러
,
리지 하비
,
게리
태그
검색 결과
렌더링
로봇 배제 표준
로봇 배제 프로토콜
모바일 친화성
색인
서치 콘솔
소통
속도
웹마스터 도구
웹마스터 커뮤니티
이미지
인덱싱
자바스크립트
체리 머핀
치솔이
코로나19
크롤링
피드백
AMP
crawling and indexing
feedback and communication
k-pop
robots.txt
search results
SEO
webmaster community
이전글 보기
2020
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월