Tester pliku Robots.txt
Sprawdź, czy dana ścieżka jest dozwolona dla crawlera zgodnie z regułami robots.txt witryny. Wybierz User-Agent (np. Googlebot, bingbot lub *), śledź przekierowania, aby dotrzeć do finalnego robots.txt, wyodrębnij dyrektywy Sitemap i eksportuj wyniki do JSON na potrzeby audytów SEO i monitorowania.
Funkcje
- Przetestuj konkretną ścieżkę względem robots.txt dla wybranego User-Agent (Googlebot, bingbot lub *).
- Śledź przekierowania, aby dotrzeć do poprawnego hosta/protokołu przed oceną reguł.
- Wyodrębnij i zweryfikuj dyrektywy Sitemap: znalezione w robots.txt.
- Wyróżnij typowe błędne konfiguracje (zbyt szerokie disallow, brakujące sitemapy, niespójne przekierowania hosta).
- Kopiuj wyniki na potrzeby zgłoszeń SEO i debugowania.
- Eksportuj raport JSON do audytów, kontroli regresji i monitorowania CI.
- Domyślnie bezpieczne: blokuje cele w sieciach prywatnych i używa stałego User-Agent.
🧭 Jak używać for robots-txt-tester
Wprowadź adres URL witryny
Wklej podstawowy adres URL witryny (na przykład [https://example.com](https://example.com)). Narzędzie zlokalizuje i odczyta robots.txt dla tej witryny.
Wybierz User-Agent
Wybierz *, aby zasymulować dowolnego bota, lub wybierz Googlebot / bingbot, aby ocenić ich specyficzne reguły grupowe. Zachowanie Robots.txt może się różnić w zależności od bota.
Ustaw ścieżkę do przetestowania
Wprowadź ścieżkę, którą chcesz zweryfikować (na przykład /private/ lub /products/widget). Jest ona oceniana względem reguł Allow/Disallow.
Pozostaw włączoną opcję „Śledź przekierowania” (zalecane)
Jeśli Twoja witryna przekierowuje http→https lub non-www→www (lub odwrotnie), śledzenie przekierowań zapewnia ocenę poprawnego robots.txt hosta.
Przejrzyj werdykt i linie sitemap
Potwierdź, czy ścieżka jest dozwolona, i sprawdź wyodrębnione dyrektywy Sitemap. Eksportuj JSON, aby zachować dowody na potrzeby audytów lub monitorowania.
Specyfikacje techniczne
Co ocenia narzędzie
Tester pobiera robots.txt witryny i stosuje reguły grupowe User-Agent do podanej ścieżki. Może również wyodrębnić dyrektywy Sitemap do walidacji SEO.
| Wejście | Znaczenie | Przykład |
|---|---|---|
| Adres URL strony | Podstawowa strona, z której pobierany jest robots.txt | [https://example.com](https://example.com) |
| User-Agent | Której grupy crawlerów reguły mają być ocenione | Googlebot, bingbot, * |
| Ścieżka do przetestowania | Ścieżka sprawdzana względem dyrektyw Allow/Disallow | /private/ |
Zachowanie i bezpieczeństwo żądań
Żądania są wykonywane po stronie serwera z limitami bezpieczeństwa i opcjonalnym śledzeniem przekierowań, co ma znaczenie dla konfiguracji kanonicznego hosta/protokołu.
| Ustawienie | Zachowanie | Domyślne |
|---|---|---|
| Śledź przekierowania | Podąża za przekierowaniami do końcowego hosta/protokołu przed oceną | Włączone |
| Maks. przekierowań | Limit przekierowań, gdy śledzenie jest włączone | 10 |
| Limit czasu | Limit czasu żądania | 15000 ms |
| User-Agent (żądania) | Identyfikuje user agent żądania narzędzia | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Sieci prywatne | Blokuje cele w sieciach prywatnych dla bezpieczeństwa | Wyłączone (sieci prywatne niedozwolone) |
Praktyczna interpretacja reguł robots.txt
Robots.txt to dyrektywa dla crawlerów (nie system kontroli dostępu). Pomaga zapobiegać indeksowaniu, ale nie gwarantuje usunięcia z indeksu i nie chroni poufnych danych.
Wiersz poleceń
Możesz szybko sprawdzić robots.txt i potwierdzić przekierowania używając curl.
macOS / Linux
Pobierz robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Pobiera zawartość robots.txt do ręcznej inspekcji.
Śledź przekierowania do robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Przydatne, gdy host lub protokół przekierowuje (http→https, non-www→www, itp.).
Pokaż nagłówki dla żądania robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Sprawdza status HTTP, nagłówki cache oraz czy występują przekierowania.
Windows (PowerShell)
Pobierz robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentWyświetla zawartość pliku robots.txt.
Zastosowania
Diagnozowanie problemów „Zindeksowane, ale zablokowane przez robots.txt”
Potwierdź, która dokładna reguła blokuje ścieżkę i dla której grupy botów.
- Znajdź przypadkowe Disallow: /, które blokuje całą witrynę
- Sprawdź, czy reguły dla Googlebot różnią się od reguł dla *
Weryfikacja migracji i zmian hosta kanonicznego
Upewnij się, że produkcyjny host kanoniczny jest możliwy do indeksowania, a plik robots.txt jest obecny i poprawny po przekierowaniach.
- Przekierowania http→https nadal umożliwiają odnalezienie robots.txt
- Host kanoniczny www/non-www udostępnia zamierzone reguły
Sprawdzanie deklaracji mapy witryny
Wyodrębnij linie Sitemap: i upewnij się, że wskazują na poprawne, dostępne adresy URL mapy witryny.
- Sprawdź, czy adresy URL mapy witryny używają hosta kanonicznego i protokołu https
- Wykryj brakujące dyrektywy Sitemap na dużych witrynach
Zapobieganie przypadkowemu marnowaniu zasobów indeksowania
Blokuj naprawdę nieistotne ścieżki (panel administracyjny, wyszukiwanie wewnętrzne, parametry), zachowując możliwość indeksowania wartościowych sekcji.
- Zablokuj adresy URL wewnętrznego wyszukiwania
- Zezwól na ważne ścieżki paginacji/kategorii
❓ Frequently Asked Questions
❓Czy robots.txt zapobiega indeksowaniu?
❓Czy robots.txt to funkcja bezpieczeństwa?
❓Dlaczego powinienem testować różne nagłówki User-Agent?
❓Dlaczego „Obsługa przekierowań” ma znaczenie?
❓Jaka jest najbezpieczniejsza domyślna konfiguracja?
HTTPS. Unikaj szerokich wzorców Disallow, chyba że jesteś pewien.❓Czy mogę zablokować indeksowanie, ale nadal pozwolić na indeksowanie?
Pro Tips
Zawsze testuj robots.txt na kanonicznym hoście i protokole (https + wybrany www/non-www). Wiele przypadków „zablokowania” wynika z edycji robots.txt na niewłaściwym hoście.
Nie używaj robots.txt do deindeksacji. Jeśli potrzebujesz usunięcia, użyj noindex (i pozwól na indeksowanie), dodatkowo usuń linki wewnętrzne i zaktualizuj mapy witryn.
Dołącz dyrektywy Sitemap: wskazujące na kanoniczne, dostępne adresy URL map witryn (https, poprawna nazwa hosta).
Podczas wdrożeń/migracji dodaj szybkie sprawdzenie CI, które weryfikuje, że robots.txt istnieje, zwraca 200 i nie zawiera Disallow: / dla produkcji.
Unikaj nadmiernego blokowania za pomocą szerokich wzorców. Blokowanie zasobów lub kluczowych sekcji może zaszkodzić renderowaniu i odkrywaniu.
Additional Resources
Other Tools
- Upiększacz CSS
- Upiększacz HTML
- Upiększacz JavaScript
- Upiększacz PHP
- Wybór koloru
- Ekstraktor sprite'ów
- Koder binarny Base32
- Dekoder Base32
- Koder Base32
- Koder binarny Base58
- Dekoder Base58
- Koder Base58
- Koder binarny Base62
- Dekoder Base62
- Koder Base62
- Koder binarny Base64
- Dekoder Base64
- Koder Base64
- Koder binarny szesnastkowy
- Dekoder szesnastkowy
- Koder szesnastkowy
- Formatowanie C#
- Formatowanie CSV
- Dockerfile Formatter
- Formatowanie Elm
- Formatowanie ENV
- Formatowanie Go
- Formatowanie GraphQL
- Formatowanie HCL
- Formatowanie INI
- Formatowanie JSON
- Formatowanie LaTeX
- Formatowanie Markdown
- Formatowanie Objective-C
- Php Formatter
- Formatowanie Proto
- Formatowanie Python
- Formatowanie Ruby
- Formatowanie Rust
- Formatowanie Scala
- Formatowanie skryptów powłoki
- Formatowanie SQL
- Formatowanie SVG
- Formatowanie Swift
- Formatowanie TOML
- Typescript Formatter
- Formatowanie XML
- Formatowanie YAML
- Formatowanie Yarn
- Minifikator CSS
- Html Minifier
- Javascript Minifier
- Minifikator JSON
- Minifikator XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Przegląd nagłówków HTTP
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF do tekstu
- Tester wyrażeń regularnych
- Sprawdzanie pozycji w SERP
- Wyszukiwanie Whois