Robots.txt Tester

Перевірте, чи дозволений певний шлях для сканера згідно з правилами robots.txt сайту. Оберіть User-Agent (наприклад, Googlebot, bingbot або *), перейдіть за редіректами до остаточного robots.txt, витягніть директиви Sitemap та експортуйте результати у JSON для SEO-аудиту та моніторингу.

Loading…

Про інструмент Тестер Robots.txt

Robots.txt контролює доступ сканерів на рівні сайту. Цей інструмент отримує robots.txt сайту, застосовує його правила для обраного User-Agent та повідомляє, чи має бути дозволений або заблокований конкретний шлях. Він ідеально підходить для діагностики проблем індексації, перевірки змін під час міграції та забезпечення того, що ви випадково не заблокували важливі розділи (або не відкрили приватні).

Можливості

  • Перевірте конкретний шлях згідно з robots.txt для обраного User-Agent (Googlebot, bingbot або *).
  • Переходьте за редіректами, щоб досягти правильного хоста/протоколу перед оцінкою правил.
  • Витягніть та перевірте директиви Sitemap:, знайдені в robots.txt.
  • Підсвічуйте поширені помилки конфігурації (надто широкі заборони, відсутні карти сайту, неузгоджені редіректи хоста).
  • Копіюйте результати для SEO-завдань та налагодження.
  • Експортуйте звіт у JSON для аудитів, регресійних перевірок та моніторингу CI.
  • Безпека за замовчуванням: блокує цілі в приватних мережах та використовує фіксований User-Agent.

🧭 Як користуватися for robots-txt-tester

1

Введіть URL сайту

Вставте базовий URL сайту (наприклад, [https://example.com](https://example.com)). Інструмент знайде та прочитає robots.txt для цього сайту.

2

Оберіть User-Agent

Оберіть *, щоб імітувати будь-якого бота, або виберіть Googlebot / bingbot для оцінки їхніх специфічних групових правил. Поведінка Robots.txt може відрізнятися для різних ботів.

3

Встановіть шлях для перевірки

Введіть шлях, який потрібно перевірити (наприклад, /private/ або /products/widget). Він оцінюється відповідно до правил Allow/Disallow.

4

Залиште «Переходити за редіректами» увімкненим (рекомендовано)

Якщо ваш сайт перенаправляє http→https або non-www→www (або навпаки), перехід за редіректами гарантує, що ви оцінюєте правильний robots.txt хоста.

5

Перегляньте вердикт та рядки sitemap

Підтвердьте, чи дозволений шлях, та перевірте витягнуті директиви Sitemap. Експортуйте JSON, щоб зберегти докази для аудитів або моніторингу.

Технічні характеристики

Що оцінює інструмент

Тестер отримує robots.txt сайту та застосовує групові правила User-Agent до наданого шляху. Він також може витягувати директиви Sitemap для SEO-валідації.

Вхідні даніЗначенняПриклад
URL сайтуБазовий сайт, з якого отримується robots.txt[https://example.com](https://example.com)
User-AgentДля якої групи краулерів оцінювати правилаGooglebot, bingbot, *
Шлях для перевіркиШлях, який перевіряється на відповідність директивам Allow/Disallow/private/

Поведінка запитів та безпека

Запити виконуються на стороні сервера з обмеженнями безпеки та опціональним слідуванням за редіректами, що важливо для канонічних налаштувань хоста/протоколу.

НалаштуванняПоведінкаЗа замовчуванням
Слідувати за редіректамиСлідує за редіректами до фінального хоста/протоколу перед оцінкоюУвімкнено
Макс. редіректівОбмеження редіректів при увімкненому слідуванні10
ТаймаутОбмеження часу на запит15000 мс
User-Agent (запитів)Ідентифікує user agent запитів інструментуEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Приватні мережіБлокує цілі в приватних мережах для безпекиВимкнено (приватні мережі не дозволені)

Практична інтерпретація правил robots.txt

Robots.txt — це директива для краулерів (а не система контролю доступу). Вона допомагає запобігти скануванню, але не гарантує вилучення з індексу та не захищає конфіденційні дані.

Якщо вам потрібно захистити приватний вміст, використовуйте аутентифікацію та належну авторизацію. Для вилучення з індексу покладайтеся на заголовки/meta-теги noindex та видаляйте публічні посилання — сам по собі robots.txt не є інструментом видалення.

Командний рядок

Ви можете швидко переглянути robots.txt і підтвердити редіректи за допомогою curl.

macOS / Linux

Отримати robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Завантажує вміст robots.txt для ручного перегляду.

Слідувати за редіректами до robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Корисно, коли хост або протокол перенаправляє (http→https, non-www→www тощо).

Показати заголовки для запиту robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Перевіряє HTTP-статус, заголовки кешування та чи задіяні перенаправлення.

Windows (PowerShell)

Отримати robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Виводить вміст robots.txt.

Під час міграцій перевіряйте robots.txt на кожному канонічному хості та варіантах протоколу (http/https + www/non-www), щоб випадково не заблокувати сканування на канонічному хості продакшену.

Випадки використання

Діагностика проблем «Проіндексовано, але заблоковано robots.txt»

Підтвердіть, яке саме правило блокує шлях і для якої групи ботів.

  • Знайдіть випадкове Disallow: /, яке блокує весь сайт
  • Переконайтеся, що правила для Googlebot відрізняються від правил для *

Валідація міграцій та змін канонічного хоста

Переконайтеся, що канонічний хост продакшену доступний для сканування, а robots.txt присутній і коректний після перенаправлень.

  • Перенаправлення http→https все ще дозволяють виявлення robots.txt
  • Канонічний хост www/non-www надає призначені правила

Перевірка оголошень карт сайту

Витягніть рядки Sitemap: і переконайтеся, що вони вказують на правильні, доступні URL-адреси карт сайту.

  • Перевірте, що URL-адреси карт сайту використовують канонічний хост та https
  • Виявіть відсутні директиви Sitemap на великих сайтах

Запобігання випадковій втраті сканування

Заблокуйте справді неважливі шляхи (адмінка, внутрішній пошук, параметри), зберігаючи цінні розділи доступними для сканування.

  • Заборонити URL-адреси внутрішнього пошуку
  • Дозволити важливі шляхи з пагінацією/категоріями

❓ Frequently Asked Questions

Чи запобігає robots.txt індексації?

Не надійно. Robots.txt контролює сканування, а не індексацію. URL-адреса все ще може з'являтися в індексі, якщо на неї посилаються інші сторінки або вона вже відома, навіть якщо вона заблокована для сканування. Для стратегій виключення з індексу використовуйте noindex.

Чи є robots.txt функцією безпеки?

Ні. Це публічний файл і лише директива для сумісних сканерів. Ніколи не використовуйте robots.txt для захисту конфіденційних сторінок — натомість використовуйте аутентифікацію та авторизацію.

Чому слід тестувати різні User-Agent?

Robots.txt може визначати різні групи правил для кожного User-Agent. Шлях може бути дозволений для одного сканера і заблокований для іншого, залежно від вашої конфігурації.

Чому важливий параметр «Follow Redirects»?

Оскільки robots.txt є специфічним для хоста. Якщо ваш сайт перенаправляє на канонічний хост/протокол, слідування перенаправленням гарантує, що ви оцінюєте правила robots.txt кінцевого призначення.

Яка найбезпечніша конфігурація за замовчуванням?

Зберігайте критичний контент доступним для сканування, блокуйте лише справді марні URL-адреси та завжди публікуйте карту сайту (або кілька карт сайту) на канонічному https-хості. Уникайте широких шаблонів Disallow, якщо ви не впевнені.

Чи можна заблокувати сканування, але дозволити індексацію?

Якщо ви заблокуєте сканування через robots.txt, але URL-адреса має зовнішні посилання, пошукові системи все одно можуть проіндексувати URL без сканування його вмісту. Якщо вам потрібна деіндексація, використовуйте noindex (і дозвольте сканування, щоб боти могли його побачити).

Pro Tips

Best Practice

Завжди тестуйте robots.txt на канонічному хості та протоколі (https + обраний вами www/не-www). Багато інцидентів із «блокуванням» виникають через редагування robots.txt на неправильному хості.

Best Practice

Не використовуйте robots.txt для деіндексації. Якщо вам потрібне видалення, використовуйте noindex (і дозвольте сканування), а також видаліть внутрішні посилання та оновіть карти сайту.

CI Tip

Включіть директиви Sitemap:, які вказують на канонічні, доступні URL-адреси карт сайту (https, правильне ім'я хоста).

CI Tip

Під час розгортання/міграції додайте швидку перевірку CI, яка підтверджує, що robots.txt існує, повертає статус 200 і не містить Disallow: / для продакшену.

Best Practice

Уникайте надмірного блокування за допомогою широких шаблонів. Блокування ресурсів або ключових розділів може погіршити рендеринг та виявлення.

Additional Resources

Other Tools