웹마스터 블로그
구글 검색과 웹에 대한 최신 소식을 전합니다.
robots.txt에서 지원되지 않는 규칙에 대하여
2020년 3월 16일 월요일
(
원문
게시일: 2019년 7월 2일)
2019년 7월 1일에 구글은 프로덕션 시스템에 사용하는
robots.txt 파서를 오픈소스화한다
고 발표했습니다. 검색 오픈소싱 프로젝트의 가능성을 여는 뜻깊은 순간이었습니다. 구글은 사용자의 의견은 물론,
개발자
와
웹마스터
의 질문과 의견을 적극적으로 수렴하고 있습니다. 그중 눈길을 끄는 질문이 있어 이 포스팅에서 다루어보고자 합니다.
크롤링 지연 같은 규칙에 대한 처리기가 코드에 포함되지 않은 이유는 무엇인가요?
어제 발표한
인터넷 드래프트
는 표준에 포함되지 않은 규칙에 확장 가능한 아키텍처를 제공합니다. 이는 크롤러가 ‘unicorns: allowed’와 같은 자체 라인을 지원할 수 있다는 것을 의미합니다. 파서(parser)에서 어떻게 나타나는지 보여주기 위해
오픈소스 robots.txt 파서
에 매우 일반적인 항목인 사이트 맵을 포함시켰습니다.
파서 라이브러리를 오픈소스로 만드는 동안, 구글은 robots.txt 규칙이 어떻게 사용되는지 분석했습니다. 특히 크롤링 지연, nofollow 및 noindex와 같이 인터넷 드래프트에 의해 지원되지 않는 규칙을 중점적으로 살펴보았습니다. 이러한 규칙은 구글에서 문서화하지 않았으므로, Googlebot과 관련된 사용량은 당연히 매우 적습니다. 그런데 자세히 살펴보니 인터넷 상의 robots.txt 파일 중 0.001%를 제외한 모든 파일에서 다른 규칙과 상충되는 방식으로 사용된다는 것을 알 수 있었습니다. 그리고 이러한 오류는 구글 검색결과에서 웹마스터가 의도하지 않았지만 해당 웹사이트에 악영향을 미치는 것으로 나타났습니다.
사용 환경을 안전하게 유지하고 향후 오픈소스 출시를 준비하기 위해 구글은 2019년 9월 1일에 지원되지 않거나 게시되지 않은 규칙(예: robots.txt의 noindex)을 처리하는 모든 코드를 폐기합니다. 크롤링을 제어하는 robots.txt file의 noindex 색인생성 명령어를 사용하던 사용자의 경우, 다음과 같은 다양한 대체 옵션이 있습니다.
로봇 메타 태그의
Noindex
: HTTP 응답 헤더와 HTML 모두에서 지원되는 noindex 지시문은 크롤링이 허용될 때 색인에서 URL을 제거하는 가장 효과적인 방법입니다.
404 및 410 HTTP 상태 코드
: 두 상태 코드는 모두 해당 페이지가 존재하지 않음을 의미하며, 크롤링 및 처리가 되면 해당 URL을 구글 색인에서 삭제합니다.
비밀번호 보호:
구독 또는 유료 콘텐츠
를 표시하기 위해 마크업이 사용된 경우를 제외하고, 로그인 후 페이지를 숨기면 일반적으로 구글 색인에서 해당 페이지가 제거됩니다.
robots.txt에서 차단: 검색 엔진은 해당 엔진이 알고 있는 페이지만 색인할 수 있으므로 페이지가 크롤링되는 것을 차단하면 일반적으로 콘텐츠의 색인이 생성되지 않습니다. 검색 엔진은 콘텐츠 자체를 보지 않고 다른 페이지 링크를 기반으로 URL을 색인할 수도 있지만, 구글의 목표는 앞으로 이러한 페이지가 색인되지 않도록 하는 것입니다.
서치 콘솔 URL 제거 도구
: 구글 검색결과에서 URL을 일시적으로 제거하는 빠르고 간편한 도구입니다.
구글 검색결과에서 정보를 삭제하는 방법은
고객센터
에서 자세히 확인하실 수 있습니다. 궁금한 점은
트위터
와
웹마스터 커뮤니티
(
오프라
인 및 온라인)에 문의하시기 바랍니다.
게시물 작성자:
게리
태그
검색 결과
렌더링
로봇 배제 표준
로봇 배제 프로토콜
모바일 친화성
색인
서치 콘솔
소통
속도
웹마스터 도구
웹마스터 커뮤니티
이미지
인덱싱
자바스크립트
체리 머핀
치솔이
코로나19
크롤링
피드백
AMP
crawling and indexing
feedback and communication
k-pop
robots.txt
search results
SEO
webmaster community
이전글 보기
2020
11월
10월
9월
8월
7월
6월
5월
4월
3월
2월