Testador de Robots.txt

Teste se um determinado caminho é permitido para um rastreador de acordo com as regras robots.txt de um site. Escolha um User-Agent (ex.: Googlebot, bingbot ou *), siga redirecionamentos para alcançar o robots.txt final, extraia diretivas de Sitemap e exporte os resultados para JSON para auditorias e monitoramento de SEO.

Loading…

Sobre Testador de Robots.txt

O robots.txt controla o acesso dos rastreadores no nível do site. Esta ferramenta busca o robots.txt do site, aplica suas regras para um User-Agent escolhido e informa se um caminho específico deve ser permitido ou bloqueado. É perfeita para diagnosticar problemas de indexação, validar alterações de migração e garantir que você não bloqueou acidentalmente seções importantes (ou expôs as privadas).

Funcionalidades

  • Teste um caminho específico contra o robots.txt para um User-Agent selecionado (Googlebot, bingbot ou *).
  • Siga redirecionamentos para alcançar o host/protocolo correto antes de avaliar as regras.
  • Extraia e valide as diretivas Sitemap: encontradas no robots.txt.
  • Destaque configurações incorretas comuns (disallows muito amplos, sitemaps ausentes, redirecionamentos de host inconsistentes).
  • Copie os resultados para tickets de SEO e depuração.
  • Exporte um relatório JSON para auditorias, verificações de regressão e monitoramento de CI.
  • Seguro por padrão: bloqueia alvos de rede privada e usa um User-Agent fixo.

🧭 Como usar for robots-txt-tester

1

Insira a URL do site

Cole a URL base do site (por exemplo [https://example.com](https://example.com)). A ferramenta localizará e lerá o robots.txt desse site.

2

Escolha um User-Agent

Escolha * para simular qualquer bot, ou selecione Googlebot / bingbot para avaliar suas regras de grupo específicas. O comportamento do robots.txt pode diferir por bot.

3

Defina o caminho para testar

Insira o caminho que deseja validar (por exemplo /private/ ou /products/widget). Ele será avaliado contra as regras Allow/Disallow.

4

Mantenha “Seguir Redirecionamentos” ativado (recomendado)

Se seu site redireciona http→https ou non-www→www (ou vice-versa), seguir redirecionamentos garante que você avalie o robots.txt do host correto.

5

Revise o veredito e as linhas de sitemap

Confirme se o caminho é permitido e verifique as diretivas de Sitemap extraídas. Exporte JSON para manter evidências para auditorias ou monitoramento.

Especificações técnicas

O que a ferramenta avalia

O testador busca o robots.txt do site e aplica as regras do grupo User-Agent ao caminho fornecido. Também pode extrair diretivas de Sitemap para validação de SEO.

EntradaSignificadoExemplo
URL do SiteO site base de onde o robots.txt é obtido[https://example.com](https://example.com)
User-AgentQual grupo de regras do rastreador avaliarGooglebot, bingbot, *
Caminho para testarO caminho verificado contra as diretivas Allow/Disallow/private/

Comportamento e segurança da requisição

As requisições são do lado do servidor com limites de segurança e opção de seguir redirecionamentos, o que é importante para configurações de host/protocolo canônico.

ConfiguraçãoComportamentoPadrão
Seguir RedirecionamentosSegue redirecionamentos para o host/protocolo final antes de avaliarAtivado
Máximo de RedirecionamentosLimite de redirecionamentos quando a opção de seguir está ativada10
Tempo LimiteLimite de tempo da requisição15000 ms
User-Agent (requisições)Identifica o user agent da requisição da ferramentaEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Redes privadasBloqueia destinos de rede privada por segurançaDesativado (redes privadas não permitidas)

Interpretação prática das regras do robots.txt

O robots.txt é uma diretiva para rastreadores (não um sistema de controle de acesso). Ele ajuda a evitar o rastreamento, mas não garante a desindexação e não protege dados sensíveis.

Se você precisa proteger conteúdo privado, use autenticação e autorização adequada. Para desindexação, conte com cabeçalhos/meta noindex e remova links públicos — o robots.txt sozinho não é uma ferramenta de remoção.

Linha de comando

Você pode inspecionar rapidamente o robots.txt e confirmar redirecionamentos usando o curl.

macOS / Linux

Obter robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Baixa o conteúdo do robots.txt para inspeção manual.

Seguir redirecionamentos para robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Útil quando o host ou protocolo redireciona (http→https, non-www→www, etc.).

Mostrar cabeçalhos para a requisição do robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Verifica o status HTTP, cabeçalhos de cache e se há redirecionamentos envolvidos.

Windows (PowerShell)

Buscar robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Imprime o conteúdo do robots.txt.

Durante migrações, verifique o robots.txt em cada host canônico e variante de protocolo (http/https + www/non-www) para evitar bloquear acidentalmente o rastreamento no host canônico de produção.

Casos de uso

Diagnosticar problemas de “Indexado, mas bloqueado por robots.txt”

Confirmar qual regra exata bloqueia um caminho e para qual grupo de bots.

  • Encontrar um Disallow: / acidental que bloqueia todo o site
  • Verificar se as regras do Googlebot diferem das regras *

Validar migrações e alterações de host canônico

Garantir que o host canônico de produção seja rastreável e que o robots.txt esteja presente e correto após redirecionamentos.

  • Redirecionamentos http→https ainda permitem a descoberta do robots.txt
  • O host canônico www/non-www serve as regras pretendidas

Verificar declarações de sitemap

Extrair linhas Sitemap: e garantir que apontem para as URLs de sitemap corretas e acessíveis.

  • Verificar se as URLs do sitemap usam o host canônico e https
  • Detectar diretivas Sitemap ausentes em sites grandes

Evitar desperdício acidental de rastreamento

Bloquear caminhos verdadeiramente irrelevantes (admin, busca interna, parâmetros) mantendo seções valiosas rastreáveis.

  • Disallow em URLs de busca interna
  • Allow em caminhos importantes de paginação/categoria

❓ Frequently Asked Questions

O robots.txt impede a indexação?

Não de forma confiável. O robots.txt controla o rastreamento, não a indexação. Uma URL ainda pode aparecer indexada se outras páginas vincularem a ela ou se já for conhecida, mesmo que esteja bloqueada para rastreamento. Use noindex para estratégias de desindexação.

O robots.txt é um recurso de segurança?

Não. É um arquivo público e apenas uma diretiva para rastreadores compatíveis. Nunca use robots.txt para proteger páginas sensíveis—use autenticação e autorização em vez disso.

Por que devo testar diferentes User-Agents?

O robots.txt pode definir diferentes grupos de regras por User-Agent. Um caminho pode ser permitido para um rastreador e bloqueado para outro, dependendo da sua configuração.

Por que “Seguir Redirecionamentos” é importante?

Porque o robots.txt é específico do host. Se seu site redireciona para um host/protocolo canônico, seguir redirecionamentos garante que você avalie as regras do robots.txt do destino final.

Qual é a configuração padrão mais segura?

Mantenha o conteúdo crítico rastreável, bloqueie apenas URLs verdadeiramente inúteis e sempre publique um sitemap (ou múltiplos sitemaps) no host canônico https. Evite padrões amplos de Disallow, a menos que tenha certeza.

Posso bloquear o rastreamento mas ainda permitir a indexação?

Se você bloquear o rastreamento via robots.txt, mas o URL estiver vinculado externamente, os mecanismos de busca ainda podem indexar o URL sem rastrear seu conteúdo. Se precisar desindexar, use noindex (e permita o rastreamento para que os bots possam vê-lo).

Pro Tips

Best Practice

Sempre teste o robots.txt no host e protocolo canônicos (https + sua escolha de www/não-www). Muitos incidentes de "bloqueio" vêm da edição do robots.txt do host errado.

Best Practice

Não use robots.txt para desindexar. Se precisar de remoção, use noindex (e permita o rastreamento), além de remover links internos e atualizar sitemaps.

CI Tip

Inclua diretivas Sitemap: apontando para URLs de sitemap canônicos e acessíveis (https, nome de host correto).

CI Tip

Durante implantações/migrações, adicione uma verificação rápida de CI que confirme que o robots.txt existe, retorna 200 e não contém Disallow: / para produção.

Best Practice

Evite bloquear excessivamente com padrões amplos. Bloquear recursos ou seções-chave pode prejudicar a renderização e a descoberta.

Additional Resources

Other Tools