Testador de Robots.txt

Teste se um determinado caminho é permitido para um rastreador de acordo com as regras robots.txt de um site. Escolha um User-Agent (ex.: Googlebot, bingbot ou *), siga redirecionamentos para alcançar o robots.txt final, extraia diretivas de Sitemap e exporte os resultados para JSON para auditorias e monitoramento de SEO.

Loading…

Sobre Testador de Robots.txt

O robots.txt controla o acesso dos rastreadores no nível do site. Esta ferramenta busca o robots.txt do site, aplica suas regras para um User-Agent escolhido e informa se um caminho específico deve ser permitido ou bloqueado. É perfeita para diagnosticar problemas de indexação, validar alterações de migração e garantir que você não bloqueou acidentalmente seções importantes (ou expôs as privadas).

Funcionalidades

Teste um caminho específico contra o robots.txt para um User-Agent selecionado (Googlebot, bingbot ou *).
Siga redirecionamentos para alcançar o host/protocolo correto antes de avaliar as regras.
Extraia e valide as diretivas Sitemap: encontradas no robots.txt.
Destaque configurações incorretas comuns (disallows muito amplos, sitemaps ausentes, redirecionamentos de host inconsistentes).
Copie os resultados para tickets de SEO e depuração.
Exporte um relatório JSON para auditorias, verificações de regressão e monitoramento de CI.
Seguro por padrão: bloqueia alvos de rede privada e usa um User-Agent fixo.

🧭 Como usar for robots-txt-tester

Insira a URL do site

Cole a URL base do site (por exemplo [https://example.com](https://example.com)). A ferramenta localizará e lerá o robots.txt desse site.

Escolha um User-Agent

Escolha * para simular qualquer bot, ou selecione Googlebot / bingbot para avaliar suas regras de grupo específicas. O comportamento do robots.txt pode diferir por bot.

Defina o caminho para testar

Insira o caminho que deseja validar (por exemplo /private/ ou /products/widget). Ele será avaliado contra as regras Allow/Disallow.

Mantenha “Seguir Redirecionamentos” ativado (recomendado)

Se seu site redireciona http→https ou non-www→www (ou vice-versa), seguir redirecionamentos garante que você avalie o robots.txt do host correto.

Revise o veredito e as linhas de sitemap

Confirme se o caminho é permitido e verifique as diretivas de Sitemap extraídas. Exporte JSON para manter evidências para auditorias ou monitoramento.

Especificações técnicas

O que a ferramenta avalia

O testador busca o robots.txt do site e aplica as regras do grupo User-Agent ao caminho fornecido. Também pode extrair diretivas de Sitemap para validação de SEO.

Entrada	Significado	Exemplo
URL do Site	O site base de onde o robots.txt é obtido	[https://example.com](https://example.com)
User-Agent	Qual grupo de regras do rastreador avaliar	Googlebot, bingbot, *
Caminho para testar	O caminho verificado contra as diretivas Allow/Disallow	/private/

Comportamento e segurança da requisição

As requisições são do lado do servidor com limites de segurança e opção de seguir redirecionamentos, o que é importante para configurações de host/protocolo canônico.

Configuração	Comportamento	Padrão
Seguir Redirecionamentos	Segue redirecionamentos para o host/protocolo final antes de avaliar	Ativado
Máximo de Redirecionamentos	Limite de redirecionamentos quando a opção de seguir está ativada	10
Tempo Limite	Limite de tempo da requisição	15000 ms
User-Agent (requisições)	Identifica o user agent da requisição da ferramenta	Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Redes privadas	Bloqueia destinos de rede privada por segurança	Desativado (redes privadas não permitidas)

Interpretação prática das regras do robots.txt

O robots.txt é uma diretiva para rastreadores (não um sistema de controle de acesso). Ele ajuda a evitar o rastreamento, mas não garante a desindexação e não protege dados sensíveis.

Se você precisa proteger conteúdo privado, use autenticação e autorização adequada. Para desindexação, conte com cabeçalhos/meta noindex e remova links públicos — o robots.txt sozinho não é uma ferramenta de remoção.

Linha de comando

Você pode inspecionar rapidamente o robots.txt e confirmar redirecionamentos usando o curl.

macOS / Linux

Obter robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Baixa o conteúdo do robots.txt para inspeção manual.

Seguir redirecionamentos para robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Útil quando o host ou protocolo redireciona (http→https, non-www→www, etc.).

Mostrar cabeçalhos para a requisição do robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Verifica o status HTTP, cabeçalhos de cache e se há redirecionamentos envolvidos.

Windows (PowerShell)

Buscar robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Imprime o conteúdo do robots.txt.

Durante migrações, verifique o robots.txt em cada host canônico e variante de protocolo (http/https + www/non-www) para evitar bloquear acidentalmente o rastreamento no host canônico de produção.

Casos de uso

Diagnosticar problemas de “Indexado, mas bloqueado por robots.txt”

Confirmar qual regra exata bloqueia um caminho e para qual grupo de bots.

Encontrar um Disallow: / acidental que bloqueia todo o site
Verificar se as regras do Googlebot diferem das regras *

Validar migrações e alterações de host canônico

Garantir que o host canônico de produção seja rastreável e que o robots.txt esteja presente e correto após redirecionamentos.

Redirecionamentos http→https ainda permitem a descoberta do robots.txt
O host canônico www/non-www serve as regras pretendidas

Verificar declarações de sitemap

Extrair linhas Sitemap: e garantir que apontem para as URLs de sitemap corretas e acessíveis.

Verificar se as URLs do sitemap usam o host canônico e https
Detectar diretivas Sitemap ausentes em sites grandes

Evitar desperdício acidental de rastreamento

Bloquear caminhos verdadeiramente irrelevantes (admin, busca interna, parâmetros) mantendo seções valiosas rastreáveis.

Disallow em URLs de busca interna
Allow em caminhos importantes de paginação/categoria

❓ Frequently Asked Questions

❓O robots.txt impede a indexação?

Não de forma confiável. O robots.txt controla o rastreamento, não a indexação. Uma URL ainda pode aparecer indexada se outras páginas vincularem a ela ou se já for conhecida, mesmo que esteja bloqueada para rastreamento. Use noindex para estratégias de desindexação.

❓O robots.txt é um recurso de segurança?

Não. É um arquivo público e apenas uma diretiva para rastreadores compatíveis. Nunca use robots.txt para proteger páginas sensíveis—use autenticação e autorização em vez disso.

❓Por que devo testar diferentes User-Agents?

O robots.txt pode definir diferentes grupos de regras por User-Agent. Um caminho pode ser permitido para um rastreador e bloqueado para outro, dependendo da sua configuração.

❓Por que “Seguir Redirecionamentos” é importante?

Porque o robots.txt é específico do host. Se seu site redireciona para um host/protocolo canônico, seguir redirecionamentos garante que você avalie as regras do robots.txt do destino final.

❓Qual é a configuração padrão mais segura?

Mantenha o conteúdo crítico rastreável, bloqueie apenas URLs verdadeiramente inúteis e sempre publique um sitemap (ou múltiplos sitemaps) no host canônico https. Evite padrões amplos de Disallow, a menos que tenha certeza.

❓Posso bloquear o rastreamento mas ainda permitir a indexação?

Se você bloquear o rastreamento via robots.txt, mas o URL estiver vinculado externamente, os mecanismos de busca ainda podem indexar o URL sem rastrear seu conteúdo. Se precisar desindexar, use noindex (e permita o rastreamento para que os bots possam vê-lo).

Pro Tips

Best Practice

Sempre teste o robots.txt no host e protocolo canônicos (https + sua escolha de www/não-www). Muitos incidentes de "bloqueio" vêm da edição do robots.txt do host errado.

Best Practice

Não use robots.txt para desindexar. Se precisar de remoção, use noindex (e permita o rastreamento), além de remover links internos e atualizar sitemaps.

CI Tip

Inclua diretivas Sitemap: apontando para URLs de sitemap canônicos e acessíveis (https, nome de host correto).

CI Tip

Durante implantações/migrações, adicione uma verificação rápida de CI que confirme que o robots.txt existe, retorna 200 e não contém Disallow: / para produção.

Best Practice

Evite bloquear excessivamente com padrões amplos. Bloquear recursos ou seções-chave pode prejudicar a renderização e a descoberta.

Additional Resources

Especificação robots.txt (RFC 9309)

Documentation

Google Search Central: robots.txt

Documentation

Google Search Central: testes e problemas comuns do robots.txt

Documentation

Testador de Robots.txt

Sobre Testador de Robots.txt

✨ Funcionalidades

🧭 Como usar for robots-txt-tester

Insira a URL do site

Escolha um User-Agent

Defina o caminho para testar

Mantenha “Seguir Redirecionamentos” ativado (recomendado)

Revise o veredito e as linhas de sitemap

🧩 Especificações técnicas

📄O que a ferramenta avalia

⚙️Comportamento e segurança da requisição

🧠Interpretação prática das regras do robots.txt

💻 Linha de comando

🧑‍💻macOS / Linux

🪟Windows (PowerShell)

🎯 Casos de uso

🧪Diagnosticar problemas de “Indexado, mas bloqueado por robots.txt”

🚚Validar migrações e alterações de host canônico

🗺️Verificar declarações de sitemap

🧰Evitar desperdício acidental de rastreamento

❓ Frequently Asked Questions

❓O robots.txt impede a indexação?

❓O robots.txt é um recurso de segurança?

❓Por que devo testar diferentes User-Agents?

❓Por que “Seguir Redirecionamentos” é importante?

❓Qual é a configuração padrão mais segura?

❓Posso bloquear o rastreamento mas ainda permitir a indexação?

Pro Tips

Additional Resources

Other Tools

Funcionalidades

Especificações técnicas

O que a ferramenta avalia

Comportamento e segurança da requisição

Interpretação prática das regras do robots.txt

Linha de comando

macOS / Linux

Windows (PowerShell)

Casos de uso

Diagnosticar problemas de “Indexado, mas bloqueado por robots.txt”

Validar migrações e alterações de host canônico

Verificar declarações de sitemap

Evitar desperdício acidental de rastreamento