Tools

    robots.txt für KI-Crawler: GPTBot, PerplexityBot & Co.

    Zuletzt aktualisiert: April 2026

    Die robots.txt ist der Türsteher deiner Website. Wer hier KI-Crawlern keinen Zutritt gewährt, wird in den entsprechenden Modellen nicht zitiert — oder schlimmer: gar nicht erst gelernt.

    Welche KI-Crawler gibt es?

    • GPTBot — OpenAI, sammelt Daten für ChatGPT-Training.
    • OAI-SearchBot — OpenAI, für ChatGPT Search (live).
    • PerplexityBot — Perplexity, für Antworten und Citations.
    • Google-Extended — Google, für Gemini-Training (separat von Googlebot).
    • ClaudeBot / Claude-Web — Anthropic.
    • CCBot — Common Crawl, Datenbasis vieler Modelle.
    • Applebot-Extended — Apple Intelligence.
    • Bytespider — ByteDance / Doubao.

    Welche Bots solltest du erlauben?

    Für maximale KI-Sichtbarkeit: alle relevanten Bots erlauben. Ausnahmen sind sensible Bereiche (interne Doku, Login, Checkout) — die sollten ohnehin blockiert sein.

    Eine Blockade von GPTBot & Co. wirkt sich nicht direkt auf SEO aus, aber massiv auf KI-Sichtbarkeit. Der häufigste Fehler: Marken übernehmen Default-robots.txt von CMS-Templates und wundern sich später, warum sie unsichtbar sind.

    Wie sieht ein vollständiges robots.txt-Beispiel aus?

    User-agent: GPTBot
    Allow: /
    
    User-agent: OAI-SearchBot
    Allow: /
    
    User-agent: PerplexityBot
    Allow: /
    
    User-agent: Google-Extended
    Allow: /
    
    User-agent: ClaudeBot
    Allow: /
    
    User-agent: CCBot
    Allow: /
    
    User-agent: Applebot-Extended
    Allow: /
    
    User-agent: *
    Disallow: /admin/
    Disallow: /api/
    
    Sitemap: https://brandar.de/sitemap.xml

    Wann solltest du Crawler selektiv blockieren?

    • Paywall-Inhalte: blockieren, um nicht kostenlos in Trainingsdaten zu landen.
    • UGC-Bereiche mit Datenschutzrelevanz.
    • Interne Tools, Login-Bereiche, Checkout.

    Eine pauschale Blockade aller KI-Bots ist nur sinnvoll, wenn Marke und Content explizit nicht in KI-Antworten erscheinen sollen — was selten ein wirtschaftliches Ziel ist.

    Wie prüfst du, ob deine robots.txt funktioniert?

    1. Direkt im Browser aufrufen: https://deinedomain.de/robots.txt.
    2. Mit Googles robots.txt-Tester (Search Console) Pfade und User-Agents prüfen.
    3. Server-Logs analysieren: Welche Bots greifen tatsächlich zu?
    4. Mit Tools wie Brandar tracken, ob deine Inhalte in KI-Antworten auftauchen — der ultimative Praxistest.

    Häufige Fragen

    Verwandte Artikel

    Ihre Privatsphäre ist uns wichtig

    Wir verwenden Cookies und ähnliche Technologien auf unserer Website und verarbeiten personenbezogene Daten von Ihnen (z. B. IP-Adresse), um Inhalte und Anzeigen zu personalisieren, Medien von Drittanbietern einzubinden sowie Zugriffe auf unsere Website zu analysieren.

    Die Datenverarbeitung kann auch erst infolge gesetzter Cookies stattfinden. Wir teilen diese Daten mit Dritten, die wir in den benennen.

    Drittlandtransfer: Einige Dienste übertragen personenbezogene Daten in Drittländer (z. B. USA). Mit Ihrer Einwilligung stimmen Sie auch der Verarbeitung Ihrer Daten in diesen Ländern gemäß Art. 49 Abs. 1 lit. a DSGVO zu. Es besteht das Risiko, dass Behörden auf die Daten zugreifen und kein gleichwertiges Datenschutzniveau gewährleistet ist. Betroffen: Google Analytics, LinkedIn Insight Tag, HubSpot Tracking Code, YouTube Video, Google Maps.

    Die Einwilligung ist freiwillig und kann jederzeit über den Link „Cookie-Einstellungen" am Ende jeder Seite widerrufen oder angepasst werden.

    Wenn Sie unter 16 Jahre alt sind und Ihre Einwilligung zu freiwilligen Diensten geben möchten, müssen Sie Ihre Erziehungsberechtigten um Erlaubnis bitten.

    Wenn Sie „Alle akzeptieren" klicken, stimmen Sie der Verarbeitung durch folgende 6 Dienste zu: Google Analytics, Plausible Analytics, LinkedIn Insight Tag, HubSpot Tracking Code, YouTube Video, Google Maps.

    Datenschutzerklärung·Impressum·