robots.txt / 구성 요소와 예제
robots.txt 파일은 웹사이트의 루트 디렉터리에 위치하여 검색 엔진 크롤러(예: Googlebot)에게 어떤 페이지나 파일을 크롤링할 수 있는지 또는 크롤링할 수 없는지 알려주는 텍스트 파일이다. 이 파일은 웹사이트의 크롤링 지침을 설정하는 데 사용된다.
구성 요소
User-agent
크롤러의 이름을 지한다. 예를 들어, 구글은 Googlebot, 빙은 Bingbot이다. *는 모든 크롤러를 의미한다.
Disallow
크롤러가 접근하지 못하도록 할 경로를 지정한다. Disallow: /는 사이트의 모든 페이지를 크롤링하지 못하도록 한다.
Allow
크롤러가 접근할 수 있도록 허용하는 경로를 지정한다. 일반적으로 특정 파일이나 하위 디렉터리를 허용할 때 사용한다.
Sitemap
사이트맵 파일의 위치를 지정하여 크롤러가 더 잘 이해할 수 있도록 한다.
예제
전체 사이트 크롤링 허용
User-agent: * Disallow:
전체 사이트 크롤링 차단
User-agent: * Disallow: /
/private/ 디렉토리 크롤링 차단
User-agent: * Disallow: /private/
/private.html 파일 크롤링 차단
User-agent: * Disallow: /private.html
Googlebot에 대하여 /private/ 디렉토리 크롤링 차단
User-agent: Googlebot Disallow: /private/
/private/ 디렉토리는 크롤링 차단하나, /private/allow.html 파일은 크롤링 허용
User-agent: * Disallow: /private/ Allow: /private/allow.html
사이트맵 위치 지정
User-agent: * Disallow: Sitemap: https://www.example.com/sitemap.xml