GPTBot(OpenAI), PerplexityBot(Perplexity), ClaudeBot(Anthropic), Googlebot(Google) 등 주요 AI 봇을 robots.txt에서 허용하는 방법을 각사 공식 문서 기반으로 정리합니다.
robots.txt는 웹 크롤러에게 어떤 페이지를 크롤링할 수 있는지 안내하는 표준 파일입니다. AI 검색 최적화에서 가장 먼저 확인해야 할 항목입니다. 모든 주요 AI 봇은 robots.txt를 준수한다고 공식적으로 밝히고 있습니다.
robots.txt는 웹사이트 루트 디렉토리에 위치하는 텍스트 파일입니다. Robots Exclusion Protocol(REP)로도 불리며, IETF RFC 9309에 표준화되어 있습니다. (RFC 9309 원문 →)
User-agent: [봇 이름]
Allow: [허용할 경로]
Disallow: [차단할 경로]
# User-agent: * 는 모든 봇에 적용
User-agent: *
Allow: /
각사 공식 문서를 기반으로 정리한 주요 AI 봇 User-Agent입니다.
GPTBot (학습 데이터 수집용):
User-agent: GPTBot
ChatGPT-User (실시간 브라우징용):
User-agent: ChatGPT-User
출처: OpenAI 공식 문서
User-agent: anthropic-ai
(구버전: User-agent: Claude-Web)
Googlebot (검색 인덱싱용):
User-agent: Googlebot
Google-Extended (Gemini AI 학습용):
User-agent: Google-Extended
모든 주요 AI 봇을 허용하는 권장 robots.txt 설정입니다.
# 모든 봇 기본 허용
User-agent: *
Allow: /
# OpenAI GPTBot (학습 데이터)
User-agent: GPTBot
Allow: /
# OpenAI ChatGPT-User (브라우징)
User-agent: ChatGPT-User
Allow: /
# Perplexity AI
User-agent: PerplexityBot
Allow: /
# Anthropic Claude
User-agent: anthropic-ai
Allow: /
# Google Gemini AI 학습
User-agent: Google-Extended
Allow: /
# Apple
User-agent: Applebot
Allow: /
# Sitemap 위치
Sitemap: https://우리도메인.com/sitemap.xml
실제 사이트에 적용할 때는 우리도메인.com을 실제 도메인으로 교체하고, robots.txt 파일을 도메인 루트에 업로드합니다.
브라우저에서 https://우리도메인.com/robots.txt로 직접 접근하면 현재 설정을 확인할 수 있습니다. 또는 온종일AI의 AI 최적화 진단기에서 URL을 입력하면 GPTBot, PerplexityBot, ClaudeBot, Googlebot의 차단 여부를 자동으로 진단합니다.
기술적으로는 그렇습니다. User-agent: * 에 Allow: / 를 설정하면 이름이 명시되지 않은 모든 봇을 허용합니다. 그러나 특정 봇에 대한 명시적 설정이 없으면 해당 봇이 robots.txt를 어떻게 해석하는지에 따라 결과가 다를 수 있습니다. 중요한 봇은 개별 명시 설정을 권장합니다.
AI 봇마다 다르지만, 일반적으로 robots.txt 변경 후 즉시 재크롤링되지 않습니다. 크롤링 주기는 봇마다 다르며, 사이트의 크롤링 빈도에 따라 수일~수주 후 변경 사항이 반영됩니다. Google Search Console을 통해 크롤링 재요청을 할 수 있으며, Bing Webmaster Tools도 유사한 기능을 제공합니다.