웹마스터 블로그
구글 검색과 웹에 대한 최신 소식을 전합니다.
구글 robots.txt parser가 이제 오픈소스로 운영됩니다
2020년 3월 31일 화요일
(
원문
게시일: 2019년 7월 1일)
지난 25년 동안
로봇 배제 프로토콜
(
REP
: Robot Exclusion Protocol)는 실질적인 표준 역할을 해왔으나 공식적인 표준으로 간주되지는 않았습니다. 그런 이유로 REP 적용이 어려운 경우가 종종 있었습니다. 웹마스터 관점에서는 텍스트 편집기가 robots.txt 파일에
BOM
문자를 포함하는 경우처럼 예외적인 상황을 어떻게 처리해야하는지 어려웠습니다. 반면, 크롤러 및 도구 개발자에게는 수백 메가바이트에 달하는 robots.txt 파일을 처리하는 방법 등이 명확하지 않았습니다.
오늘 구글은 REP를 인터넷 표준으로 만들기 위해 앞장서고 있다고
발표
했습니다. 발표 자체가 중요하긴 하지만 robots.txt 파일을 파싱(parsing)하는 개발자에게는 표준에 맞게 추가 작업을 해야하는 부담이 생겼습니다.
구글은 프로덕션 시스템에서 robots.txt 파일의 규칙을 파싱 및 매칭하는 데 사용하는 C++ 라이브러리를
오픈소스화
했습니다. 이 라이브러리는 약 20년간 사용되어 왔으며 90년대에 작성된 코드를 포함하고 있습니다. 그 후로 라이브러리는 진화를 거듭했고, 웹마스터가 robots.txt 파일을 작성하는 방식과 구글이 해결해야 하는 예외상황에 대해 많은 것을 파악하게 되었으며, 그동안 파악한 사항들을 인터넷 드래프트에도 추가했습니다.
또한 사용자가 몇 가지 규칙을 테스트할 수 있도록 오픈소스 패키지에 테스트 도구를 포함했습니다. 작성한 후의 사용법은 매우 간단합니다.
robots_main <robots.txt content> <user_agent> <url>
라이브러리 내용을 확인하려면 GitHub 리포지토리를 방문하여
robots.txt 파서
를 참고하세요. C++ 라이브러리가 여러분에게 어떠한 영감을 불러일으킬지 매우 기대됩니다. 라이브러리를 활용한 우수한 사례가 있다면
트위터
에 의견을 남겨주시고, 라이브러리에 대한 의견이나 질문이 있으면
GitHub
으로 문의해주세요.
작성자:
에듀 페레다
,
로드 바데베네
,
게리
, 검색 오픈소싱 팀
태그
검색 결과
렌더링
로봇 배제 표준
로봇 배제 프로토콜
모바일 친화성
색인
서치 콘솔
소통
속도
웹마스터 도구
웹마스터 커뮤니티
이미지
인덱싱
자바스크립트
체리 머핀
치솔이
코로나19
크롤링
피드백
AMP
crawling and indexing
feedback and communication
k-pop
robots.txt
search results
SEO
webmaster community
이전글 보기
2020
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월