Тестер Robots.txt

Проверьте, разрешён ли заданный путь для краулера согласно правилам robots.txt сайта. Выберите User-Agent (например, Googlebot, bingbot или *), следуйте редиректам для получения финального robots.txt, извлеките директивы Sitemap и экспортируйте результаты в JSON для SEO-аудитов и мониторинга.

Loading…

О сервисе Тестер Robots.txt

Robots.txt управляет доступом краулеров на уровне сайта. Этот инструмент загружает robots.txt сайта, применяет его правила для выбранного User-Agent и сообщает, должен ли конкретный путь быть разрешён или заблокирован. Идеально подходит для диагностики проблем индексации, проверки изменений при миграции и обеспечения отсутствия случайной блокировки важных разделов (или раскрытия приватных).

Возможности

Проверьте конкретный путь по robots.txt для выбранного User-Agent (Googlebot, bingbot или *).
Следуйте редиректам для достижения корректного хоста/протокола перед оценкой правил.
Извлеките и проверьте директивы Sitemap:, найденные в robots.txt.
Подсветите типичные ошибки конфигурации (слишком широкие disallow, отсутствующие sitemap, неконсистентные редиректы хоста).
Скопируйте результаты для SEO-задач и отладки.
Экспортируйте JSON-отчёт для аудитов, регрессионных проверок и CI-мониторинга.
Безопасность по умолчанию: блокирует цели в приватных сетях и использует фиксированный User-Agent.

🧭 Как использовать for robots-txt-tester

Введите URL сайта

Вставьте базовый URL сайта (например, [https://example.com](https://example.com)). Инструмент найдёт и прочитает robots.txt для этого сайта.

Выберите User-Agent

Выберите * для симуляции любого бота или укажите Googlebot / bingbot для оценки их специфичных групповых правил. Поведение robots.txt может различаться для разных ботов.

Укажите путь для проверки

Введите путь, который нужно проверить (например, /private/ или /products/widget). Он будет оценён по правилам Allow/Disallow.

Оставьте «Следовать редиректам» включённым (рекомендуется)

Если ваш сайт делает редиректы http→https или non-www→www (или наоборот), следование редиректам гарантирует оценку правильного robots.txt хоста.

Просмотрите вердикт и строки sitemap

Подтвердите, разрешён ли путь, и проверьте извлечённые директивы Sitemap. Экспортируйте JSON для сохранения доказательств для аудитов или мониторинга.

Технические характеристики

Что оценивает инструмент

Тестер загружает robots.txt сайта и применяет групповые правила User-Agent к предоставленному пути. Также может извлекать директивы Sitemap для SEO-валидации.

Ввод	Значение	Пример
URL сайта	Базовый сайт, с которого загружается robots.txt	[https://example.com](https://example.com)
User-Agent	Какие правила для группы краулеров оценивать	Googlebot, bingbot, *
Путь для проверки	Путь, проверяемый на соответствие директивам Allow/Disallow	/private/

Поведение и безопасность запросов

Запросы выполняются на стороне сервера с ограничениями безопасности и опциональным следованием редиректам, что важно для канонических настроек хоста/протокола.

Настройка	Поведение	По умолчанию
Следовать редиректам	Следует за редиректами до конечного хоста/протокола перед оценкой	Включено
Макс. редиректов	Лимит редиректов при включенном следовании	10
Таймаут	Лимит таймаута запроса	15000 мс
User-Agent (запросы)	Идентифицирует User-Agent запросов инструмента	Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Частные сети	Блокирует цели в частных сетях для безопасности	Отключено (частные сети не разрешены)

Практическая интерпретация правил robots.txt

Robots.txt — это директива для краулеров (а не система контроля доступа). Она помогает предотвратить сканирование, но не гарантирует исключение из индекса и не защищает конфиденциальные данные.

Если вам нужно защитить приватный контент, используйте аутентификацию и надлежащую авторизацию. Для исключения из индекса полагайтесь на заголовки/meta-теги noindex и удаляйте публичные ссылки — один только robots.txt не является инструментом удаления.

Командная строка

Вы можете быстро проверить robots.txt и подтвердить редиректы с помощью curl.

macOS / Linux

Получить robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Загружает содержимое robots.txt для ручной проверки.

Следовать редиректам к robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Полезно, когда хост или протокол перенаправляют (http→https, non-www→www и т.д.).

Показать заголовки для запроса robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Проверяет HTTP-статус, заголовки кэширования и наличие перенаправлений.

Windows (PowerShell)

Получить robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Выводит содержимое robots.txt.

Во время миграций проверяйте robots.txt на каждом каноническом хосте и варианте протокола (http/https + www/non-www), чтобы случайно не заблокировать обход на рабочем каноническом хосте.

Случаи использования

Диагностика проблем «Проиндексировано, но заблокировано robots.txt»

Подтвердите, какое именно правило блокирует путь и для какой группы ботов.

Найти случайное Disallow: /, которое блокирует весь сайт
Убедиться, что правила для Googlebot отличаются от правил для *

Проверка миграции и изменений канонического хоста

Убедитесь, что рабочий канонический хост доступен для обхода, а robots.txt присутствует и корректен после перенаправлений.

Перенаправления http→https всё ещё позволяют обнаружить robots.txt
Канонический хост www/non-www предоставляет нужные правила

Проверка объявлений карты сайта

Извлеките строки Sitemap: и убедитесь, что они указывают на правильные, доступные URL карт сайта.

Убедиться, что URL карт сайта используют канонический хост и https
Обнаружить отсутствующие директивы Sitemap на крупных сайтах

Предотвращение случайной траты ресурсов на обход

Блокируйте действительно неважные пути (админка, внутренний поиск, параметры), сохраняя при этом ценные разделы доступными для обхода.

Запретить URL внутреннего поиска
Разрешить важные страницы с пагинацией/категориями

❓ Frequently Asked Questions

❓Запрещает ли robots.txt индексацию?

Ненадёжно. Robots.txt управляет обходом, а не индексацией. URL всё ещё может появиться в индексе, если на него ссылаются другие страницы или он уже известен, даже если он заблокирован для обхода. Для стратегий исключения из индекса используйте noindex.

❓Является ли robots.txt функцией безопасности?

Нет. Это публичный файл и лишь директива для совместимых краулеров. Никогда не используйте robots.txt для защиты конфиденциальных страниц — вместо этого используйте аутентификацию и авторизацию.

❓Зачем тестировать разных User-Agent?

Robots.txt может определять разные группы правил для каждого User-Agent. Путь может быть разрешён для одного краулера и заблокирован для другого, в зависимости от вашей конфигурации.

❓Почему важен параметр «Следовать за перенаправлениями»?

Потому что robots.txt специфичен для хоста. Если ваш сайт перенаправляет на канонический хост/протокол, следование за перенаправлениями гарантирует, что вы оцениваете правила robots.txt конечного назначения.

❓Какая конфигурация по умолчанию самая безопасная?

Сохраняйте критически важный контент доступным для сканирования, блокируйте только действительно бесполезные URL-адреса и всегда публикуйте карту сайта (или несколько карт сайта) на каноническом https-хосте. Избегайте широких шаблонов Disallow, если не уверены.

❓Можно ли заблокировать сканирование, но разрешить индексацию?

Если вы блокируете сканирование через robots.txt, но URL-адрес имеет внешние ссылки, поисковые системы всё равно могут проиндексировать URL без сканирования его содержимого. Если требуется исключение из индекса, используйте noindex (и разрешите сканирование, чтобы боты могли его увидеть).

Pro Tips

Best Practice

Всегда тестируйте robots.txt на каноническом хосте и протоколе (https + выбранный www/non-www). Многие инциденты с «блокировкой» происходят из-за редактирования robots.txt не на том хосте.

Best Practice

Не используйте robots.txt для исключения из индекса. Если требуется удаление, используйте noindex (и разрешите сканирование), а также удалите внутренние ссылки и обновите карты сайта.

CI Tip

Включайте директивы Sitemap:, указывающие на канонические, доступные URL карт сайта (https, правильное имя хоста).

CI Tip

Во время развёртывания/миграции добавляйте быструю проверку в CI, которая подтверждает существование robots.txt, возврат кода 200 и отсутствие Disallow: / для продакшена.

Best Practice

Избегайте чрезмерной блокировки с помощью широких шаблонов. Блокировка ресурсов или ключевых разделов может ухудшить рендеринг и обнаружение.

Additional Resources

Спецификация robots.txt (RFC 9309)

Documentation

Google Search Central: robots.txt

Documentation

Google Search Central: тестирование robots.txt и распространённые проблемы

Documentation

Тестер Robots.txt

О сервисе Тестер Robots.txt

✨ Возможности

🧭 Как использовать for robots-txt-tester

Введите URL сайта

Выберите User-Agent

Укажите путь для проверки

Оставьте «Следовать редиректам» включённым (рекомендуется)

Просмотрите вердикт и строки sitemap

🧩 Технические характеристики

📄Что оценивает инструмент

⚙️Поведение и безопасность запросов

🧠Практическая интерпретация правил robots.txt

💻 Командная строка

🧑‍💻macOS / Linux

🪟Windows (PowerShell)

🎯 Случаи использования

🧪Диагностика проблем «Проиндексировано, но заблокировано robots.txt»

🚚Проверка миграции и изменений канонического хоста

🗺️Проверка объявлений карты сайта

🧰Предотвращение случайной траты ресурсов на обход

❓ Frequently Asked Questions

❓Запрещает ли robots.txt индексацию?

❓Является ли robots.txt функцией безопасности?

❓Зачем тестировать разных User-Agent?

❓Почему важен параметр «Следовать за перенаправлениями»?

❓Какая конфигурация по умолчанию самая безопасная?

❓Можно ли заблокировать сканирование, но разрешить индексацию?

Pro Tips

Additional Resources

Other Tools

Возможности

Технические характеристики

Что оценивает инструмент

Поведение и безопасность запросов

Практическая интерпретация правил robots.txt

Командная строка

macOS / Linux

Windows (PowerShell)

Случаи использования

Диагностика проблем «Проиндексировано, но заблокировано robots.txt»

Проверка миграции и изменений канонического хоста

Проверка объявлений карты сайта

Предотвращение случайной траты ресурсов на обход