Robots.txt Tester

Testen Sie, ob ein bestimmter Pfad für einen Crawler gemäß den robots.txt-Regeln einer Website erlaubt ist. Wählen Sie einen User-Agent (z.B. Googlebot, bingbot oder *), folgen Sie Weiterleitungen zum finalen robots.txt, extrahieren Sie Sitemap-Direktiven und exportieren Sie Ergebnisse als JSON für SEO-Audits und Monitoring.

Loading…

Über Robots.txt Tester

Robots.txt steuert den Crawler-Zugriff auf Website-Ebene. Dieses Tool holt die robots.txt der Website, wendet ihre Regeln für einen gewählten User-Agent an und zeigt an, ob ein bestimmter Pfad erlaubt oder blockiert sein sollte. Ideal zur Diagnose von Indexierungsproblemen, Validierung von Migrationsänderungen und Sicherstellung, dass wichtige Bereiche nicht versehentlich blockiert (oder private freigelegt) wurden.

Funktionen

  • Einen bestimmten Pfad gegen robots.txt für einen ausgewählten User-Agent (Googlebot, bingbot oder *) testen.
  • Weiterleitungen folgen, um den korrekten Host/Protokoll vor Regelauswertung zu erreichen.
  • Sitemap:-Direktiven in robots.txt extrahieren und validieren.
  • Häufige Fehlkonfigurationen hervorheben (zu breite Disallows, fehlende Sitemaps, inkonsistente Host-Weiterleitungen).
  • Ergebnisse für SEO-Tickets und Debugging kopieren.
  • Einen JSON-Bericht für Audits, Regressionstests und CI-Monitoring exportieren.
  • Standardmäßig sicher: blockiert private Netzwerkziele und verwendet einen festen User-Agent.

🧭 So verwenden Sie es for robots-txt-tester

1

Website-URL eingeben

Fügen Sie die Basis-URL der Website ein (z.B. [https://example.com](https://example.com)). Das Tool findet und liest die robots.txt für diese Website.

2

Einen User-Agent auswählen

Wählen Sie *, um einen beliebigen Bot zu simulieren, oder wählen Sie Googlebot / bingbot, um deren spezifische Gruppenregeln zu bewerten. Das Robots.txt-Verhalten kann pro Bot variieren.

3

Zu testenden Pfad festlegen

Geben Sie den zu validierenden Pfad ein (z.B. /private/ oder /products/widget). Dieser wird gegen Allow/Disallow-Regeln ausgewertet.

4

„Weiterleitungen folgen“ aktiviert lassen (empfohlen)

Wenn Ihre Website http→https oder non-www→www (oder umgekehrt) weiterleitet, stellt das Folgen von Weiterleitungen sicher, dass die robots.txt des korrekten Hosts ausgewertet wird.

5

Ergebnis und Sitemap-Zeilen überprüfen

Bestätigen Sie, ob der Pfad erlaubt ist, und prüfen Sie extrahierte Sitemap-Direktiven. Exportieren Sie JSON, um Beweise für Audits oder Monitoring zu sichern.

Technische Spezifikationen

Was das Tool bewertet

Der Tester holt die robots.txt der Website und wendet User-Agent-Gruppenregeln auf den bereitgestellten Pfad an. Er kann auch Sitemap-Direktiven zur SEO-Validierung extrahieren.

EingabeBedeutungBeispiel
Website-URLDie Basis-Website, von der die robots.txt abgerufen wird[https://example.com](https://example.com)
User-AgentWelche Crawler-Gruppenregeln ausgewertet werden sollenGooglebot, bingbot, *
Zu testender PfadDer Pfad, der gegen Allow/Disallow-Anweisungen geprüft wird/private/

Anfrageverhalten und Sicherheit

Anfragen erfolgen serverseitig mit Sicherheitslimits und optionaler Weiterleitungsverfolgung, was für kanonische Host-/Protokoll-Einrichtungen wichtig ist.

EinstellungVerhaltenStandard
Weiterleitungen folgenFolgt Weiterleitungen zum endgültigen Host/Protokoll vor der AuswertungAktiviert
Maximale WeiterleitungenWeiterleitungslimit, wenn das Folgen aktiviert ist10
TimeoutAnfrage-Timeout-Limit15000 ms
User-Agent (Anfragen)Identifiziert den User-Agent des Tool-AnfrageEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Private NetzwerkeBlockiert aus Sicherheitsgründen Ziele in privaten NetzwerkenDeaktiviert (private Netzwerke nicht erlaubt)

Praktische Interpretation von robots.txt-Regeln

Robots.txt ist eine Crawler-Anweisung (kein Zugriffskontrollsystem). Es hilft, das Crawling zu verhindern, garantiert aber keine Deindexierung und schützt keine sensiblen Daten.

Wenn Sie private Inhalte schützen müssen, verwenden Sie Authentifizierung und ordnungsgemäße Autorisierung. Für die Deindexierung verlassen Sie sich auf Noindex-Header/Meta und entfernen öffentliche Links – robots.txt allein ist kein Entfernungstool.

Befehlszeile

Sie können robots.txt schnell überprüfen und Weiterleitungen mit curl bestätigen.

macOS / Linux

Robots.txt abrufen

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Lädt den robots.txt-Inhalt zur manuellen Überprüfung herunter.

Weiterleitungen zu robots.txt folgen

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Nützlich, wenn der Host oder das Protokoll umleitet (http→https, non-www→www, usw.).

Header für robots.txt-Anfrage anzeigen

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Prüft HTTP-Status, Caching-Header und ob Weiterleitungen beteiligt sind.

Windows (PowerShell)

robots.txt abrufen

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Gibt den Inhalt von robots.txt aus.

Überprüfen Sie während Migrationen robots.txt auf jedem kanonischen Host und Protokollvarianten (http/https + www/non-www), um versehentliches Blockieren des Crawlings auf dem produktiven kanonischen Host zu vermeiden.

Anwendungsfälle

Probleme mit „Indiziert, aber durch robots.txt blockiert“ diagnostizieren

Bestätigen, welche genaue Regel einen Pfad blockiert und für welche Bot-Gruppe.

  • Versehentliches Disallow: / finden, das die gesamte Seite blockiert
  • Überprüfen, ob Googlebot-Regeln sich von *-Regeln unterscheiden

Migrationen und kanonische Host-Änderungen validieren

Sicherstellen, dass der produktive kanonische Host crawlbar ist und robots.txt nach Weiterleitungen vorhanden und korrekt ist.

  • http→https-Weiterleitungen ermöglichen weiterhin robots.txt-Erkennung
  • www/non-www kanonischer Host liefert die beabsichtigten Regeln

Sitemap-Deklarationen prüfen

Sitemap:-Zeilen extrahieren und sicherstellen, dass sie auf korrekte, zugängliche Sitemap-URLs verweisen.

  • Überprüfen, ob Sitemap-URLs den kanonischen Host und https verwenden
  • Fehlende Sitemap-Anweisungen auf großen Websites erkennen

Versehentlichen Crawl-Verschwendung vorbeugen

Wirklich unwichtige Pfade (Admin, interne Suche, Parameter) blockieren, während wertvolle Bereiche crawlbar bleiben.

  • Interne Such-URLs disallowen
  • Wichtige paginierte/Kategorie-Pfade erlauben

❓ Frequently Asked Questions

Verhindert robots.txt die Indizierung?

Nicht zuverlässig. Robots.txt steuert das Crawling, nicht die Indizierung. Eine URL kann weiterhin indiziert erscheinen, wenn andere Seiten darauf verlinken oder sie bereits bekannt ist, selbst wenn sie vom Crawling blockiert ist. Verwenden Sie noindex für Deindexierungsstrategien.

Ist robots.txt eine Sicherheitsfunktion?

Nein. Es ist eine öffentliche Datei und nur eine Richtlinie für konforme Crawler. Verwenden Sie robots.txt niemals zum Schutz sensibler Seiten – nutzen Sie stattdessen Authentifizierung und Autorisierung.

Warum sollte ich verschiedene User-Agents testen?

Robots.txt kann verschiedene Regelgruppen pro User-Agent definieren. Ein Pfad kann für einen Crawler erlaubt und für einen anderen blockiert sein, abhängig von Ihrer Konfiguration.

Warum ist „Follow Redirects“ wichtig?

Weil robots.txt host-spezifisch ist. Wenn Ihre Website zu einem kanonischen Host/Protokoll weiterleitet, stellt das Folgen von Weiterleitungen sicher, dass Sie die robots.txt-Regeln des endgültigen Ziels auswerten.

Was ist die sicherste Standardkonfiguration?

Halten Sie wichtige Inhalte crawlbar, blockieren Sie nur wirklich unbrauchbare URLs und veröffentlichen Sie immer eine Sitemap (oder mehrere Sitemaps) auf dem kanonischen https-Host. Vermeiden Sie breite Disallow-Muster, es sei denn, Sie sind sich sicher.

Kann ich das Crawling blockieren, aber die Indexierung trotzdem erlauben?

Wenn Sie das Crawling über robots.txt blockieren, die URL aber extern verlinkt ist, können Suchmaschinen die URL möglicherweise trotzdem indexieren, ohne deren Inhalt zu crawlen. Wenn Sie eine Deindexierung benötigen, verwenden Sie noindex (und erlauben Sie das Crawling, damit Bots es sehen können).

Pro Tips

Best Practice

Testen Sie robots.txt immer auf dem kanonischen Host und Protokoll (https + Ihrem gewählten www/non-www). Viele 'Blockierungs'-Vorfälle entstehen durch die Bearbeitung der falschen robots.txt-Datei eines Hosts.

Best Practice

Verwenden Sie robots.txt nicht für die Deindexierung. Wenn Sie eine Entfernung benötigen, verwenden Sie noindex (und erlauben Sie das Crawling), entfernen Sie interne Links und aktualisieren Sie Sitemaps.

CI Tip

Fügen Sie Sitemap:-Direktiven hinzu, die auf kanonische, zugängliche Sitemap-URLs verweisen (https, korrekter Hostname).

CI Tip

Fügen Sie während Bereitstellungen/Migrationen einen schnellen CI-Check hinzu, der überprüft, ob robots.txt existiert, 200 zurückgibt und kein Disallow: / für die Produktion enthält.

Best Practice

Vermeiden Sie Überblockierung durch breite Muster. Das Blockieren von Ressourcen oder wichtigen Bereichen kann das Rendering und die Entdeckung beeinträchtigen.

Additional Resources

Other Tools