Robots.txt Tester
Testen Sie, ob ein bestimmter Pfad für einen Crawler gemäß den robots.txt-Regeln einer Website erlaubt ist. Wählen Sie einen User-Agent (z.B. Googlebot, bingbot oder *), folgen Sie Weiterleitungen zum finalen robots.txt, extrahieren Sie Sitemap-Direktiven und exportieren Sie Ergebnisse als JSON für SEO-Audits und Monitoring.
Funktionen
- Einen bestimmten Pfad gegen robots.txt für einen ausgewählten User-Agent (Googlebot, bingbot oder *) testen.
- Weiterleitungen folgen, um den korrekten Host/Protokoll vor Regelauswertung zu erreichen.
- Sitemap:-Direktiven in robots.txt extrahieren und validieren.
- Häufige Fehlkonfigurationen hervorheben (zu breite Disallows, fehlende Sitemaps, inkonsistente Host-Weiterleitungen).
- Ergebnisse für SEO-Tickets und Debugging kopieren.
- Einen JSON-Bericht für Audits, Regressionstests und CI-Monitoring exportieren.
- Standardmäßig sicher: blockiert private Netzwerkziele und verwendet einen festen User-Agent.
🧭 So verwenden Sie es for robots-txt-tester
Website-URL eingeben
Fügen Sie die Basis-URL der Website ein (z.B. [https://example.com](https://example.com)). Das Tool findet und liest die robots.txt für diese Website.
Einen User-Agent auswählen
Wählen Sie *, um einen beliebigen Bot zu simulieren, oder wählen Sie Googlebot / bingbot, um deren spezifische Gruppenregeln zu bewerten. Das Robots.txt-Verhalten kann pro Bot variieren.
Zu testenden Pfad festlegen
Geben Sie den zu validierenden Pfad ein (z.B. /private/ oder /products/widget). Dieser wird gegen Allow/Disallow-Regeln ausgewertet.
„Weiterleitungen folgen“ aktiviert lassen (empfohlen)
Wenn Ihre Website http→https oder non-www→www (oder umgekehrt) weiterleitet, stellt das Folgen von Weiterleitungen sicher, dass die robots.txt des korrekten Hosts ausgewertet wird.
Ergebnis und Sitemap-Zeilen überprüfen
Bestätigen Sie, ob der Pfad erlaubt ist, und prüfen Sie extrahierte Sitemap-Direktiven. Exportieren Sie JSON, um Beweise für Audits oder Monitoring zu sichern.
Technische Spezifikationen
Was das Tool bewertet
Der Tester holt die robots.txt der Website und wendet User-Agent-Gruppenregeln auf den bereitgestellten Pfad an. Er kann auch Sitemap-Direktiven zur SEO-Validierung extrahieren.
| Eingabe | Bedeutung | Beispiel |
|---|---|---|
| Website-URL | Die Basis-Website, von der die robots.txt abgerufen wird | [https://example.com](https://example.com) |
| User-Agent | Welche Crawler-Gruppenregeln ausgewertet werden sollen | Googlebot, bingbot, * |
| Zu testender Pfad | Der Pfad, der gegen Allow/Disallow-Anweisungen geprüft wird | /private/ |
Anfrageverhalten und Sicherheit
Anfragen erfolgen serverseitig mit Sicherheitslimits und optionaler Weiterleitungsverfolgung, was für kanonische Host-/Protokoll-Einrichtungen wichtig ist.
| Einstellung | Verhalten | Standard |
|---|---|---|
| Weiterleitungen folgen | Folgt Weiterleitungen zum endgültigen Host/Protokoll vor der Auswertung | Aktiviert |
| Maximale Weiterleitungen | Weiterleitungslimit, wenn das Folgen aktiviert ist | 10 |
| Timeout | Anfrage-Timeout-Limit | 15000 ms |
| User-Agent (Anfragen) | Identifiziert den User-Agent des Tool-Anfrage | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Private Netzwerke | Blockiert aus Sicherheitsgründen Ziele in privaten Netzwerken | Deaktiviert (private Netzwerke nicht erlaubt) |
Praktische Interpretation von robots.txt-Regeln
Robots.txt ist eine Crawler-Anweisung (kein Zugriffskontrollsystem). Es hilft, das Crawling zu verhindern, garantiert aber keine Deindexierung und schützt keine sensiblen Daten.
Befehlszeile
Sie können robots.txt schnell überprüfen und Weiterleitungen mit curl bestätigen.
macOS / Linux
Robots.txt abrufen
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Lädt den robots.txt-Inhalt zur manuellen Überprüfung herunter.
Weiterleitungen zu robots.txt folgen
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Nützlich, wenn der Host oder das Protokoll umleitet (http→https, non-www→www, usw.).
Header für robots.txt-Anfrage anzeigen
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Prüft HTTP-Status, Caching-Header und ob Weiterleitungen beteiligt sind.
Windows (PowerShell)
robots.txt abrufen
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentGibt den Inhalt von robots.txt aus.
Anwendungsfälle
Probleme mit „Indiziert, aber durch robots.txt blockiert“ diagnostizieren
Bestätigen, welche genaue Regel einen Pfad blockiert und für welche Bot-Gruppe.
- Versehentliches Disallow: / finden, das die gesamte Seite blockiert
- Überprüfen, ob Googlebot-Regeln sich von *-Regeln unterscheiden
Migrationen und kanonische Host-Änderungen validieren
Sicherstellen, dass der produktive kanonische Host crawlbar ist und robots.txt nach Weiterleitungen vorhanden und korrekt ist.
- http→https-Weiterleitungen ermöglichen weiterhin robots.txt-Erkennung
- www/non-www kanonischer Host liefert die beabsichtigten Regeln
Sitemap-Deklarationen prüfen
Sitemap:-Zeilen extrahieren und sicherstellen, dass sie auf korrekte, zugängliche Sitemap-URLs verweisen.
- Überprüfen, ob Sitemap-URLs den kanonischen Host und https verwenden
- Fehlende Sitemap-Anweisungen auf großen Websites erkennen
Versehentlichen Crawl-Verschwendung vorbeugen
Wirklich unwichtige Pfade (Admin, interne Suche, Parameter) blockieren, während wertvolle Bereiche crawlbar bleiben.
- Interne Such-URLs disallowen
- Wichtige paginierte/Kategorie-Pfade erlauben
❓ Frequently Asked Questions
❓Verhindert robots.txt die Indizierung?
❓Ist robots.txt eine Sicherheitsfunktion?
❓Warum sollte ich verschiedene User-Agents testen?
❓Warum ist „Follow Redirects“ wichtig?
❓Was ist die sicherste Standardkonfiguration?
❓Kann ich das Crawling blockieren, aber die Indexierung trotzdem erlauben?
Pro Tips
Testen Sie robots.txt immer auf dem kanonischen Host und Protokoll (https + Ihrem gewählten www/non-www). Viele 'Blockierungs'-Vorfälle entstehen durch die Bearbeitung der falschen robots.txt-Datei eines Hosts.
Verwenden Sie robots.txt nicht für die Deindexierung. Wenn Sie eine Entfernung benötigen, verwenden Sie noindex (und erlauben Sie das Crawling), entfernen Sie interne Links und aktualisieren Sie Sitemaps.
Fügen Sie Sitemap:-Direktiven hinzu, die auf kanonische, zugängliche Sitemap-URLs verweisen (https, korrekter Hostname).
Fügen Sie während Bereitstellungen/Migrationen einen schnellen CI-Check hinzu, der überprüft, ob robots.txt existiert, 200 zurückgibt und kein Disallow: / für die Produktion enthält.
Vermeiden Sie Überblockierung durch breite Muster. Das Blockieren von Ressourcen oder wichtigen Bereichen kann das Rendering und die Entdeckung beeinträchtigen.
Additional Resources
Other Tools
- CSS-Verschönerer
- HTML-Verschönerer
- JavaScript-Verschönerer
- PHP-Verschönerer
- Farbauswahl
- Sprite-Extraktor
- Base32-Binärcodierer
- Base32-Decoder
- Base32-Codierer
- Base58-Binärcodierer
- Base58-Decoder
- Base58-Codierer
- Base62-Binärcodierer
- Base62-Decoder
- Base62-Codierer
- Base64-Binärcodierer
- Base64-Decoder
- Base64-Encoder
- Hex-Binärcodierer
- Hex-Decoder
- Hex-Codierer
- Csharp-Formatierer
- CSV-Formatierer
- Dockerfile Formatter
- Elm-Formatierer
- ENV-Formatierer
- Go-Formatierer
- GraphQL-Formatierer
- HCL-Formatierer
- INI-Formatierer
- JSON-Formatierer
- LaTeX-Formatierer
- Markdown-Formatierer
- Objective-C-Formatierer
- Php Formatter
- Proto-Formatierer
- Python-Formatierer
- Ruby-Formatierer
- Rust-Formatierer
- Scala-Formatierer
- Shell-Skript-Formatierer
- SQL-Formatierer
- SVG-Formatierer
- Swift-Formatierer
- TOML-Formatierer
- Typescript Formatter
- XML-Formatierer
- YAML-Formatierer
- Yarn-Formatierer
- CSS-Minifizierer
- Html Minifier
- Javascript Minifier
- JSON-Minifizierer
- XML-Minifizierer
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- HTTP-Header-Betrachter
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF zu Text
- Regex-Tester
- SERP-Rang-Prüfer
- Whois-Abfrage