Тестер Robots.txt
Проверьте, разрешён ли заданный путь для краулера согласно правилам robots.txt сайта. Выберите User-Agent (например, Googlebot, bingbot или *), следуйте редиректам для получения финального robots.txt, извлеките директивы Sitemap и экспортируйте результаты в JSON для SEO-аудитов и мониторинга.
Возможности
- Проверьте конкретный путь по robots.txt для выбранного User-Agent (Googlebot, bingbot или *).
- Следуйте редиректам для достижения корректного хоста/протокола перед оценкой правил.
- Извлеките и проверьте директивы Sitemap:, найденные в robots.txt.
- Подсветите типичные ошибки конфигурации (слишком широкие disallow, отсутствующие sitemap, неконсистентные редиректы хоста).
- Скопируйте результаты для SEO-задач и отладки.
- Экспортируйте JSON-отчёт для аудитов, регрессионных проверок и CI-мониторинга.
- Безопасность по умолчанию: блокирует цели в приватных сетях и использует фиксированный User-Agent.
🧭 Как использовать for robots-txt-tester
Введите URL сайта
Вставьте базовый URL сайта (например, [https://example.com](https://example.com)). Инструмент найдёт и прочитает robots.txt для этого сайта.
Выберите User-Agent
Выберите * для симуляции любого бота или укажите Googlebot / bingbot для оценки их специфичных групповых правил. Поведение robots.txt может различаться для разных ботов.
Укажите путь для проверки
Введите путь, который нужно проверить (например, /private/ или /products/widget). Он будет оценён по правилам Allow/Disallow.
Оставьте «Следовать редиректам» включённым (рекомендуется)
Если ваш сайт делает редиректы http→https или non-www→www (или наоборот), следование редиректам гарантирует оценку правильного robots.txt хоста.
Просмотрите вердикт и строки sitemap
Подтвердите, разрешён ли путь, и проверьте извлечённые директивы Sitemap. Экспортируйте JSON для сохранения доказательств для аудитов или мониторинга.
Технические характеристики
Что оценивает инструмент
Тестер загружает robots.txt сайта и применяет групповые правила User-Agent к предоставленному пути. Также может извлекать директивы Sitemap для SEO-валидации.
| Ввод | Значение | Пример |
|---|---|---|
| URL сайта | Базовый сайт, с которого загружается robots.txt | [https://example.com](https://example.com) |
| User-Agent | Какие правила для группы краулеров оценивать | Googlebot, bingbot, * |
| Путь для проверки | Путь, проверяемый на соответствие директивам Allow/Disallow | /private/ |
Поведение и безопасность запросов
Запросы выполняются на стороне сервера с ограничениями безопасности и опциональным следованием редиректам, что важно для канонических настроек хоста/протокола.
| Настройка | Поведение | По умолчанию |
|---|---|---|
| Следовать редиректам | Следует за редиректами до конечного хоста/протокола перед оценкой | Включено |
| Макс. редиректов | Лимит редиректов при включенном следовании | 10 |
| Таймаут | Лимит таймаута запроса | 15000 мс |
| User-Agent (запросы) | Идентифицирует User-Agent запросов инструмента | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Частные сети | Блокирует цели в частных сетях для безопасности | Отключено (частные сети не разрешены) |
Практическая интерпретация правил robots.txt
Robots.txt — это директива для краулеров (а не система контроля доступа). Она помогает предотвратить сканирование, но не гарантирует исключение из индекса и не защищает конфиденциальные данные.
Командная строка
Вы можете быстро проверить robots.txt и подтвердить редиректы с помощью curl.
macOS / Linux
Получить robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Загружает содержимое robots.txt для ручной проверки.
Следовать редиректам к robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Полезно, когда хост или протокол перенаправляют (http→https, non-www→www и т.д.).
Показать заголовки для запроса robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Проверяет HTTP-статус, заголовки кэширования и наличие перенаправлений.
Windows (PowerShell)
Получить robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentВыводит содержимое robots.txt.
Случаи использования
Диагностика проблем «Проиндексировано, но заблокировано robots.txt»
Подтвердите, какое именно правило блокирует путь и для какой группы ботов.
- Найти случайное Disallow: /, которое блокирует весь сайт
- Убедиться, что правила для Googlebot отличаются от правил для *
Проверка миграции и изменений канонического хоста
Убедитесь, что рабочий канонический хост доступен для обхода, а robots.txt присутствует и корректен после перенаправлений.
- Перенаправления http→https всё ещё позволяют обнаружить robots.txt
- Канонический хост www/non-www предоставляет нужные правила
Проверка объявлений карты сайта
Извлеките строки Sitemap: и убедитесь, что они указывают на правильные, доступные URL карт сайта.
- Убедиться, что URL карт сайта используют канонический хост и https
- Обнаружить отсутствующие директивы Sitemap на крупных сайтах
Предотвращение случайной траты ресурсов на обход
Блокируйте действительно неважные пути (админка, внутренний поиск, параметры), сохраняя при этом ценные разделы доступными для обхода.
- Запретить URL внутреннего поиска
- Разрешить важные страницы с пагинацией/категориями
❓ Frequently Asked Questions
❓Запрещает ли robots.txt индексацию?
❓Является ли robots.txt функцией безопасности?
❓Зачем тестировать разных User-Agent?
❓Почему важен параметр «Следовать за перенаправлениями»?
❓Какая конфигурация по умолчанию самая безопасная?
❓Можно ли заблокировать сканирование, но разрешить индексацию?
Pro Tips
Всегда тестируйте robots.txt на каноническом хосте и протоколе (https + выбранный www/non-www). Многие инциденты с «блокировкой» происходят из-за редактирования robots.txt не на том хосте.
Не используйте robots.txt для исключения из индекса. Если требуется удаление, используйте noindex (и разрешите сканирование), а также удалите внутренние ссылки и обновите карты сайта.
Включайте директивы Sitemap:, указывающие на канонические, доступные URL карт сайта (https, правильное имя хоста).
Во время развёртывания/миграции добавляйте быструю проверку в CI, которая подтверждает существование robots.txt, возврат кода 200 и отсутствие Disallow: / для продакшена.
Избегайте чрезмерной блокировки с помощью широких шаблонов. Блокировка ресурсов или ключевых разделов может ухудшить рендеринг и обнаружение.
Additional Resources
Other Tools
- Форматер CSS
- Форматер HTML
- Форматер JavaScript
- Форматер PHP
- Выбор цвета
- Экстрактор спрайтов
- Base32 Бинарный Кодировщик
- Base32 Декодер
- Base32 Кодировщик
- Base58 Бинарный Кодировщик
- Base58 Декодер
- Base58 Кодировщик
- Base62 Бинарный Кодировщик
- Base62 Декодер
- Base62 Кодировщик
- Base64 Бинарный Кодировщик
- Декодер Base64
- Кодировщик Base64
- Hex Бинарный Кодировщик
- Hex Декодер
- Hex Кодировщик
- Форматер C#
- Форматер CSV
- Dockerfile Formatter
- Форматер Elm
- Форматер ENV
- Форматер Go
- Форматер GraphQL
- Форматер HCL
- Форматер INI
- Форматер JSON
- Форматер LaTeX
- Форматер Markdown
- Форматер Objective-C
- Php Formatter
- Форматер Proto
- Форматер Python
- Форматер Ruby
- Форматер Rust
- Форматер Scala
- Форматер shell-скриптов
- Форматер SQL
- Форматтер SVG
- Форматтер Swift
- Форматтер TOML
- Typescript Formatter
- Форматтер XML
- Форматтер YAML
- Форматтер Yarn
- Минификатор CSS
- Html Minifier
- Javascript Minifier
- Минификатор JSON
- Минификатор XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Просмотрщик HTTP-заголовков
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF в текст
- Тестер регулярных выражений
- Проверка позиций в SERP
- Поиск Whois