Robots.txt Tester
Перевірте, чи дозволений певний шлях для сканера згідно з правилами robots.txt сайту. Оберіть User-Agent (наприклад, Googlebot, bingbot або *), перейдіть за редіректами до остаточного robots.txt, витягніть директиви Sitemap та експортуйте результати у JSON для SEO-аудиту та моніторингу.
Можливості
- Перевірте конкретний шлях згідно з robots.txt для обраного User-Agent (Googlebot, bingbot або *).
- Переходьте за редіректами, щоб досягти правильного хоста/протоколу перед оцінкою правил.
- Витягніть та перевірте директиви Sitemap:, знайдені в robots.txt.
- Підсвічуйте поширені помилки конфігурації (надто широкі заборони, відсутні карти сайту, неузгоджені редіректи хоста).
- Копіюйте результати для SEO-завдань та налагодження.
- Експортуйте звіт у JSON для аудитів, регресійних перевірок та моніторингу CI.
- Безпека за замовчуванням: блокує цілі в приватних мережах та використовує фіксований User-Agent.
🧭 Як користуватися for robots-txt-tester
Введіть URL сайту
Вставте базовий URL сайту (наприклад, [https://example.com](https://example.com)). Інструмент знайде та прочитає robots.txt для цього сайту.
Оберіть User-Agent
Оберіть *, щоб імітувати будь-якого бота, або виберіть Googlebot / bingbot для оцінки їхніх специфічних групових правил. Поведінка Robots.txt може відрізнятися для різних ботів.
Встановіть шлях для перевірки
Введіть шлях, який потрібно перевірити (наприклад, /private/ або /products/widget). Він оцінюється відповідно до правил Allow/Disallow.
Залиште «Переходити за редіректами» увімкненим (рекомендовано)
Якщо ваш сайт перенаправляє http→https або non-www→www (або навпаки), перехід за редіректами гарантує, що ви оцінюєте правильний robots.txt хоста.
Перегляньте вердикт та рядки sitemap
Підтвердьте, чи дозволений шлях, та перевірте витягнуті директиви Sitemap. Експортуйте JSON, щоб зберегти докази для аудитів або моніторингу.
Технічні характеристики
Що оцінює інструмент
Тестер отримує robots.txt сайту та застосовує групові правила User-Agent до наданого шляху. Він також може витягувати директиви Sitemap для SEO-валідації.
| Вхідні дані | Значення | Приклад |
|---|---|---|
| URL сайту | Базовий сайт, з якого отримується robots.txt | [https://example.com](https://example.com) |
| User-Agent | Для якої групи краулерів оцінювати правила | Googlebot, bingbot, * |
| Шлях для перевірки | Шлях, який перевіряється на відповідність директивам Allow/Disallow | /private/ |
Поведінка запитів та безпека
Запити виконуються на стороні сервера з обмеженнями безпеки та опціональним слідуванням за редіректами, що важливо для канонічних налаштувань хоста/протоколу.
| Налаштування | Поведінка | За замовчуванням |
|---|---|---|
| Слідувати за редіректами | Слідує за редіректами до фінального хоста/протоколу перед оцінкою | Увімкнено |
| Макс. редіректів | Обмеження редіректів при увімкненому слідуванні | 10 |
| Таймаут | Обмеження часу на запит | 15000 мс |
| User-Agent (запитів) | Ідентифікує user agent запитів інструменту | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Приватні мережі | Блокує цілі в приватних мережах для безпеки | Вимкнено (приватні мережі не дозволені) |
Практична інтерпретація правил robots.txt
Robots.txt — це директива для краулерів (а не система контролю доступу). Вона допомагає запобігти скануванню, але не гарантує вилучення з індексу та не захищає конфіденційні дані.
Командний рядок
Ви можете швидко переглянути robots.txt і підтвердити редіректи за допомогою curl.
macOS / Linux
Отримати robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Завантажує вміст robots.txt для ручного перегляду.
Слідувати за редіректами до robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Корисно, коли хост або протокол перенаправляє (http→https, non-www→www тощо).
Показати заголовки для запиту robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Перевіряє HTTP-статус, заголовки кешування та чи задіяні перенаправлення.
Windows (PowerShell)
Отримати robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentВиводить вміст robots.txt.
Випадки використання
Діагностика проблем «Проіндексовано, але заблоковано robots.txt»
Підтвердіть, яке саме правило блокує шлях і для якої групи ботів.
- Знайдіть випадкове Disallow: /, яке блокує весь сайт
- Переконайтеся, що правила для Googlebot відрізняються від правил для *
Валідація міграцій та змін канонічного хоста
Переконайтеся, що канонічний хост продакшену доступний для сканування, а robots.txt присутній і коректний після перенаправлень.
- Перенаправлення http→https все ще дозволяють виявлення robots.txt
- Канонічний хост www/non-www надає призначені правила
Перевірка оголошень карт сайту
Витягніть рядки Sitemap: і переконайтеся, що вони вказують на правильні, доступні URL-адреси карт сайту.
- Перевірте, що URL-адреси карт сайту використовують канонічний хост та https
- Виявіть відсутні директиви Sitemap на великих сайтах
Запобігання випадковій втраті сканування
Заблокуйте справді неважливі шляхи (адмінка, внутрішній пошук, параметри), зберігаючи цінні розділи доступними для сканування.
- Заборонити URL-адреси внутрішнього пошуку
- Дозволити важливі шляхи з пагінацією/категоріями
❓ Frequently Asked Questions
❓Чи запобігає robots.txt індексації?
❓Чи є robots.txt функцією безпеки?
❓Чому слід тестувати різні User-Agent?
❓Чому важливий параметр «Follow Redirects»?
❓Яка найбезпечніша конфігурація за замовчуванням?
❓Чи можна заблокувати сканування, але дозволити індексацію?
Pro Tips
Завжди тестуйте robots.txt на канонічному хості та протоколі (https + обраний вами www/не-www). Багато інцидентів із «блокуванням» виникають через редагування robots.txt на неправильному хості.
Не використовуйте robots.txt для деіндексації. Якщо вам потрібне видалення, використовуйте noindex (і дозвольте сканування), а також видаліть внутрішні посилання та оновіть карти сайту.
Включіть директиви Sitemap:, які вказують на канонічні, доступні URL-адреси карт сайту (https, правильне ім'я хоста).
Під час розгортання/міграції додайте швидку перевірку CI, яка підтверджує, що robots.txt існує, повертає статус 200 і не містить Disallow: / для продакшену.
Уникайте надмірного блокування за допомогою широких шаблонів. Блокування ресурсів або ключових розділів може погіршити рендеринг та виявлення.
Additional Resources
Other Tools
- Прикрашувач CSS
- Прикрашувач HTML
- Прикрашувач JavaScript
- Прикрашувач PHP
- Вибір кольору
- Екстрактор спрайтів
- Base32 Бінарний Кодувальник
- Base32 Декодувальник
- Base32 Кодувальник
- Base58 Бінарний Кодувальник
- Base58 Декодувальник
- Base58 Кодувальник
- Base62 Бінарний Кодувальник
- Base62 Декодувальник
- Base62 Кодувальник
- Base64 Бінарний Кодувальник
- Декодер Base64
- Кодувальник Base64
- Hex Бінарний Кодувальник
- Hex Декодувальник
- Hex Кодувальник
- Форматувальник C#
- Форматувальник CSV
- Dockerfile Formatter
- Форматувальник Elm
- Форматувальник ENV
- Форматувальник Go
- Форматувальник GraphQL
- Форматувальник HCL
- Форматувальник INI
- Форматувальник JSON
- Форматувальник LaTeX
- Форматувальник Markdown
- Форматувальник Objective-C
- Php Formatter
- Форматувальник Proto
- Форматувальник Python
- Форматувальник Ruby
- Форматувальник Rust
- Форматувальник Scala
- Форматувальник shell-скриптів
- Форматувальник SQL
- Форматер SVG
- Форматер Swift
- Форматер TOML
- Typescript Formatter
- Форматер XML
- Форматер YAML
- Форматер Yarn
- Мініфікатор CSS
- Html Minifier
- Javascript Minifier
- Мініфікатор JSON
- Мініфікатор XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Переглядач HTTP-заголовків
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF у текст
- Тестер регулярних виразів
- Перевірка позицій у SERP
- Пошук Whois