Тестер Robots.txt

Проверьте, разрешён ли заданный путь для краулера согласно правилам robots.txt сайта. Выберите User-Agent (например, Googlebot, bingbot или *), следуйте редиректам для получения финального robots.txt, извлеките директивы Sitemap и экспортируйте результаты в JSON для SEO-аудитов и мониторинга.

Loading…

О сервисе Тестер Robots.txt

Robots.txt управляет доступом краулеров на уровне сайта. Этот инструмент загружает robots.txt сайта, применяет его правила для выбранного User-Agent и сообщает, должен ли конкретный путь быть разрешён или заблокирован. Идеально подходит для диагностики проблем индексации, проверки изменений при миграции и обеспечения отсутствия случайной блокировки важных разделов (или раскрытия приватных).

Возможности

  • Проверьте конкретный путь по robots.txt для выбранного User-Agent (Googlebot, bingbot или *).
  • Следуйте редиректам для достижения корректного хоста/протокола перед оценкой правил.
  • Извлеките и проверьте директивы Sitemap:, найденные в robots.txt.
  • Подсветите типичные ошибки конфигурации (слишком широкие disallow, отсутствующие sitemap, неконсистентные редиректы хоста).
  • Скопируйте результаты для SEO-задач и отладки.
  • Экспортируйте JSON-отчёт для аудитов, регрессионных проверок и CI-мониторинга.
  • Безопасность по умолчанию: блокирует цели в приватных сетях и использует фиксированный User-Agent.

🧭 Как использовать for robots-txt-tester

1

Введите URL сайта

Вставьте базовый URL сайта (например, [https://example.com](https://example.com)). Инструмент найдёт и прочитает robots.txt для этого сайта.

2

Выберите User-Agent

Выберите * для симуляции любого бота или укажите Googlebot / bingbot для оценки их специфичных групповых правил. Поведение robots.txt может различаться для разных ботов.

3

Укажите путь для проверки

Введите путь, который нужно проверить (например, /private/ или /products/widget). Он будет оценён по правилам Allow/Disallow.

4

Оставьте «Следовать редиректам» включённым (рекомендуется)

Если ваш сайт делает редиректы http→https или non-www→www (или наоборот), следование редиректам гарантирует оценку правильного robots.txt хоста.

5

Просмотрите вердикт и строки sitemap

Подтвердите, разрешён ли путь, и проверьте извлечённые директивы Sitemap. Экспортируйте JSON для сохранения доказательств для аудитов или мониторинга.

Технические характеристики

Что оценивает инструмент

Тестер загружает robots.txt сайта и применяет групповые правила User-Agent к предоставленному пути. Также может извлекать директивы Sitemap для SEO-валидации.

ВводЗначениеПример
URL сайтаБазовый сайт, с которого загружается robots.txt[https://example.com](https://example.com)
User-AgentКакие правила для группы краулеров оцениватьGooglebot, bingbot, *
Путь для проверкиПуть, проверяемый на соответствие директивам Allow/Disallow/private/

Поведение и безопасность запросов

Запросы выполняются на стороне сервера с ограничениями безопасности и опциональным следованием редиректам, что важно для канонических настроек хоста/протокола.

НастройкаПоведениеПо умолчанию
Следовать редиректамСледует за редиректами до конечного хоста/протокола перед оценкойВключено
Макс. редиректовЛимит редиректов при включенном следовании10
ТаймаутЛимит таймаута запроса15000 мс
User-Agent (запросы)Идентифицирует User-Agent запросов инструментаEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Частные сетиБлокирует цели в частных сетях для безопасностиОтключено (частные сети не разрешены)

Практическая интерпретация правил robots.txt

Robots.txt — это директива для краулеров (а не система контроля доступа). Она помогает предотвратить сканирование, но не гарантирует исключение из индекса и не защищает конфиденциальные данные.

Если вам нужно защитить приватный контент, используйте аутентификацию и надлежащую авторизацию. Для исключения из индекса полагайтесь на заголовки/meta-теги noindex и удаляйте публичные ссылки — один только robots.txt не является инструментом удаления.

Командная строка

Вы можете быстро проверить robots.txt и подтвердить редиректы с помощью curl.

macOS / Linux

Получить robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Загружает содержимое robots.txt для ручной проверки.

Следовать редиректам к robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Полезно, когда хост или протокол перенаправляют (http→https, non-www→www и т.д.).

Показать заголовки для запроса robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Проверяет HTTP-статус, заголовки кэширования и наличие перенаправлений.

Windows (PowerShell)

Получить robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Выводит содержимое robots.txt.

Во время миграций проверяйте robots.txt на каждом каноническом хосте и варианте протокола (http/https + www/non-www), чтобы случайно не заблокировать обход на рабочем каноническом хосте.

Случаи использования

Диагностика проблем «Проиндексировано, но заблокировано robots.txt»

Подтвердите, какое именно правило блокирует путь и для какой группы ботов.

  • Найти случайное Disallow: /, которое блокирует весь сайт
  • Убедиться, что правила для Googlebot отличаются от правил для *

Проверка миграции и изменений канонического хоста

Убедитесь, что рабочий канонический хост доступен для обхода, а robots.txt присутствует и корректен после перенаправлений.

  • Перенаправления http→https всё ещё позволяют обнаружить robots.txt
  • Канонический хост www/non-www предоставляет нужные правила

Проверка объявлений карты сайта

Извлеките строки Sitemap: и убедитесь, что они указывают на правильные, доступные URL карт сайта.

  • Убедиться, что URL карт сайта используют канонический хост и https
  • Обнаружить отсутствующие директивы Sitemap на крупных сайтах

Предотвращение случайной траты ресурсов на обход

Блокируйте действительно неважные пути (админка, внутренний поиск, параметры), сохраняя при этом ценные разделы доступными для обхода.

  • Запретить URL внутреннего поиска
  • Разрешить важные страницы с пагинацией/категориями

❓ Frequently Asked Questions

Запрещает ли robots.txt индексацию?

Ненадёжно. Robots.txt управляет обходом, а не индексацией. URL всё ещё может появиться в индексе, если на него ссылаются другие страницы или он уже известен, даже если он заблокирован для обхода. Для стратегий исключения из индекса используйте noindex.

Является ли robots.txt функцией безопасности?

Нет. Это публичный файл и лишь директива для совместимых краулеров. Никогда не используйте robots.txt для защиты конфиденциальных страниц — вместо этого используйте аутентификацию и авторизацию.

Зачем тестировать разных User-Agent?

Robots.txt может определять разные группы правил для каждого User-Agent. Путь может быть разрешён для одного краулера и заблокирован для другого, в зависимости от вашей конфигурации.

Почему важен параметр «Следовать за перенаправлениями»?

Потому что robots.txt специфичен для хоста. Если ваш сайт перенаправляет на канонический хост/протокол, следование за перенаправлениями гарантирует, что вы оцениваете правила robots.txt конечного назначения.

Какая конфигурация по умолчанию самая безопасная?

Сохраняйте критически важный контент доступным для сканирования, блокируйте только действительно бесполезные URL-адреса и всегда публикуйте карту сайта (или несколько карт сайта) на каноническом https-хосте. Избегайте широких шаблонов Disallow, если не уверены.

Можно ли заблокировать сканирование, но разрешить индексацию?

Если вы блокируете сканирование через robots.txt, но URL-адрес имеет внешние ссылки, поисковые системы всё равно могут проиндексировать URL без сканирования его содержимого. Если требуется исключение из индекса, используйте noindex (и разрешите сканирование, чтобы боты могли его увидеть).

Pro Tips

Best Practice

Всегда тестируйте robots.txt на каноническом хосте и протоколе (https + выбранный www/non-www). Многие инциденты с «блокировкой» происходят из-за редактирования robots.txt не на том хосте.

Best Practice

Не используйте robots.txt для исключения из индекса. Если требуется удаление, используйте noindex (и разрешите сканирование), а также удалите внутренние ссылки и обновите карты сайта.

CI Tip

Включайте директивы Sitemap:, указывающие на канонические, доступные URL карт сайта (https, правильное имя хоста).

CI Tip

Во время развёртывания/миграции добавляйте быструю проверку в CI, которая подтверждает существование robots.txt, возврат кода 200 и отсутствие Disallow: / для продакшена.

Best Practice

Избегайте чрезмерной блокировки с помощью широких шаблонов. Блокировка ресурсов или ключевых разделов может ухудшить рендеринг и обнаружение.

Additional Resources

Other Tools

Тестер Robots.txt — проверка правил Allow/Disallow и директив sitemap | Encode64