Tester pliku Robots.txt

Sprawdź, czy dana ścieżka jest dozwolona dla crawlera zgodnie z regułami robots.txt witryny. Wybierz User-Agent (np. Googlebot, bingbot lub *), śledź przekierowania, aby dotrzeć do finalnego robots.txt, wyodrębnij dyrektywy Sitemap i eksportuj wyniki do JSON na potrzeby audytów SEO i monitorowania.

Loading…

O nas Tester Robots.txt

Robots.txt kontroluje dostęp crawlerów na poziomie witryny. To narzędzie pobiera robots.txt witryny, stosuje jego reguły dla wybranego User-Agent i informuje, czy konkretna ścieżka powinna być dozwolona lub zablokowana. Idealne do diagnozowania problemów z indeksowaniem, weryfikacji zmian migracyjnych i upewnienia się, że przypadkowo nie zablokowano ważnych sekcji (lub nie ujawniono prywatnych).

Funkcje

  • Przetestuj konkretną ścieżkę względem robots.txt dla wybranego User-Agent (Googlebot, bingbot lub *).
  • Śledź przekierowania, aby dotrzeć do poprawnego hosta/protokołu przed oceną reguł.
  • Wyodrębnij i zweryfikuj dyrektywy Sitemap: znalezione w robots.txt.
  • Wyróżnij typowe błędne konfiguracje (zbyt szerokie disallow, brakujące sitemapy, niespójne przekierowania hosta).
  • Kopiuj wyniki na potrzeby zgłoszeń SEO i debugowania.
  • Eksportuj raport JSON do audytów, kontroli regresji i monitorowania CI.
  • Domyślnie bezpieczne: blokuje cele w sieciach prywatnych i używa stałego User-Agent.

🧭 Jak używać for robots-txt-tester

1

Wprowadź adres URL witryny

Wklej podstawowy adres URL witryny (na przykład [https://example.com](https://example.com)). Narzędzie zlokalizuje i odczyta robots.txt dla tej witryny.

2

Wybierz User-Agent

Wybierz *, aby zasymulować dowolnego bota, lub wybierz Googlebot / bingbot, aby ocenić ich specyficzne reguły grupowe. Zachowanie Robots.txt może się różnić w zależności od bota.

3

Ustaw ścieżkę do przetestowania

Wprowadź ścieżkę, którą chcesz zweryfikować (na przykład /private/ lub /products/widget). Jest ona oceniana względem reguł Allow/Disallow.

4

Pozostaw włączoną opcję „Śledź przekierowania” (zalecane)

Jeśli Twoja witryna przekierowuje http→https lub non-www→www (lub odwrotnie), śledzenie przekierowań zapewnia ocenę poprawnego robots.txt hosta.

5

Przejrzyj werdykt i linie sitemap

Potwierdź, czy ścieżka jest dozwolona, i sprawdź wyodrębnione dyrektywy Sitemap. Eksportuj JSON, aby zachować dowody na potrzeby audytów lub monitorowania.

Specyfikacje techniczne

Co ocenia narzędzie

Tester pobiera robots.txt witryny i stosuje reguły grupowe User-Agent do podanej ścieżki. Może również wyodrębnić dyrektywy Sitemap do walidacji SEO.

WejścieZnaczeniePrzykład
Adres URL stronyPodstawowa strona, z której pobierany jest robots.txt[https://example.com](https://example.com)
User-AgentKtórej grupy crawlerów reguły mają być ocenioneGooglebot, bingbot, *
Ścieżka do przetestowaniaŚcieżka sprawdzana względem dyrektyw Allow/Disallow/private/

Zachowanie i bezpieczeństwo żądań

Żądania są wykonywane po stronie serwera z limitami bezpieczeństwa i opcjonalnym śledzeniem przekierowań, co ma znaczenie dla konfiguracji kanonicznego hosta/protokołu.

UstawienieZachowanieDomyślne
Śledź przekierowaniaPodąża za przekierowaniami do końcowego hosta/protokołu przed ocenąWłączone
Maks. przekierowańLimit przekierowań, gdy śledzenie jest włączone10
Limit czasuLimit czasu żądania15000 ms
User-Agent (żądania)Identyfikuje user agent żądania narzędziaEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Sieci prywatneBlokuje cele w sieciach prywatnych dla bezpieczeństwaWyłączone (sieci prywatne niedozwolone)

Praktyczna interpretacja reguł robots.txt

Robots.txt to dyrektywa dla crawlerów (nie system kontroli dostępu). Pomaga zapobiegać indeksowaniu, ale nie gwarantuje usunięcia z indeksu i nie chroni poufnych danych.

Jeśli potrzebujesz chronić prywatne treści, użyj uwierzytelniania i odpowiednich uprawnień. Aby usunąć z indeksu, polegaj na nagłówkach/meta noindex i usuń publiczne linki — sam robots.txt nie jest narzędziem do usuwania.

Wiersz poleceń

Możesz szybko sprawdzić robots.txt i potwierdzić przekierowania używając curl.

macOS / Linux

Pobierz robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Pobiera zawartość robots.txt do ręcznej inspekcji.

Śledź przekierowania do robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Przydatne, gdy host lub protokół przekierowuje (http→https, non-www→www, itp.).

Pokaż nagłówki dla żądania robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Sprawdza status HTTP, nagłówki cache oraz czy występują przekierowania.

Windows (PowerShell)

Pobierz robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Wyświetla zawartość pliku robots.txt.

Podczas migracji sprawdzaj robots.txt na każdym kanonicznym hoście i wariantach protokołu (http/https + www/non-www), aby uniknąć przypadkowego zablokowania indeksowania na produkcyjnym hoście kanonicznym.

Zastosowania

Diagnozowanie problemów „Zindeksowane, ale zablokowane przez robots.txt”

Potwierdź, która dokładna reguła blokuje ścieżkę i dla której grupy botów.

  • Znajdź przypadkowe Disallow: /, które blokuje całą witrynę
  • Sprawdź, czy reguły dla Googlebot różnią się od reguł dla *

Weryfikacja migracji i zmian hosta kanonicznego

Upewnij się, że produkcyjny host kanoniczny jest możliwy do indeksowania, a plik robots.txt jest obecny i poprawny po przekierowaniach.

  • Przekierowania http→https nadal umożliwiają odnalezienie robots.txt
  • Host kanoniczny www/non-www udostępnia zamierzone reguły

Sprawdzanie deklaracji mapy witryny

Wyodrębnij linie Sitemap: i upewnij się, że wskazują na poprawne, dostępne adresy URL mapy witryny.

  • Sprawdź, czy adresy URL mapy witryny używają hosta kanonicznego i protokołu https
  • Wykryj brakujące dyrektywy Sitemap na dużych witrynach

Zapobieganie przypadkowemu marnowaniu zasobów indeksowania

Blokuj naprawdę nieistotne ścieżki (panel administracyjny, wyszukiwanie wewnętrzne, parametry), zachowując możliwość indeksowania wartościowych sekcji.

  • Zablokuj adresy URL wewnętrznego wyszukiwania
  • Zezwól na ważne ścieżki paginacji/kategorii

❓ Frequently Asked Questions

Czy robots.txt zapobiega indeksowaniu?

Niezawodnie – nie. Robots.txt kontroluje indeksowanie, a nie pojawianie się w wynikach wyszukiwania. Adres URL nadal może być zindeksowany, jeśli inne strony do niego linkują lub jest już znany, nawet jeśli jest zablokowany przed indeksowaniem. Do strategii usuwania z indeksu używaj noindex.

Czy robots.txt to funkcja bezpieczeństwa?

Nie. To plik publiczny i jedynie dyrektywa dla zgodnych robotów. Nigdy nie używaj robots.txt do ochrony poufnych stron – zamiast tego stosuj uwierzytelnianie i autoryzację.

Dlaczego powinienem testować różne nagłówki User-Agent?

Robots.txt może definiować różne grupy reguł dla każdego User-Agent. Ścieżka może być dozwolona dla jednego robota i zablokowana dla innego, w zależności od konfiguracji.

Dlaczego „Obsługa przekierowań” ma znaczenie?

Ponieważ robots.txt jest specyficzny dla hosta. Jeśli Twoja witryna przekierowuje na hosta/protokół kanoniczny, obsługa przekierowań zapewnia ocenę reguł robots.txt w miejscu docelowym.

Jaka jest najbezpieczniejsza domyślna konfiguracja?

Zachowaj kluczowe treści możliwe do indeksowania, blokuj tylko naprawdę bezużyteczne adresy URL i zawsze publikuj mapę witryny (lub wiele map witryn) na kanonicznym hoście HTTPS. Unikaj szerokich wzorców Disallow, chyba że jesteś pewien.

Czy mogę zablokować indeksowanie, ale nadal pozwolić na indeksowanie?

Jeśli zablokujesz indeksowanie za pomocą robots.txt, ale adres URL jest linkowany zewnętrznie, wyszukiwarki mogą nadal indeksować adres URL bez indeksowania jego treści. Jeśli potrzebujesz deindeksacji, użyj noindex (i pozwól na indeksowanie, aby boty mogły to zobaczyć).

Pro Tips

Best Practice

Zawsze testuj robots.txt na kanonicznym hoście i protokole (https + wybrany www/non-www). Wiele przypadków „zablokowania” wynika z edycji robots.txt na niewłaściwym hoście.

Best Practice

Nie używaj robots.txt do deindeksacji. Jeśli potrzebujesz usunięcia, użyj noindex (i pozwól na indeksowanie), dodatkowo usuń linki wewnętrzne i zaktualizuj mapy witryn.

CI Tip

Dołącz dyrektywy Sitemap: wskazujące na kanoniczne, dostępne adresy URL map witryn (https, poprawna nazwa hosta).

CI Tip

Podczas wdrożeń/migracji dodaj szybkie sprawdzenie CI, które weryfikuje, że robots.txt istnieje, zwraca 200 i nie zawiera Disallow: / dla produkcji.

Best Practice

Unikaj nadmiernego blokowania za pomocą szerokich wzorców. Blokowanie zasobów lub kluczowych sekcji może zaszkodzić renderowaniu i odkrywaniu.

Additional Resources

Other Tools

Tester Robots.txt — testuj reguły Allow/Disallow i dyrektywy sitemap | Encode64