Testador de Robots.txt
Teste se um determinado caminho é permitido para um rastreador de acordo com as regras robots.txt de um site. Escolha um User-Agent (ex.: Googlebot, bingbot ou *), siga redirecionamentos para alcançar o robots.txt final, extraia diretivas de Sitemap e exporte os resultados para JSON para auditorias e monitoramento de SEO.
Funcionalidades
- Teste um caminho específico contra o robots.txt para um User-Agent selecionado (Googlebot, bingbot ou *).
- Siga redirecionamentos para alcançar o host/protocolo correto antes de avaliar as regras.
- Extraia e valide as diretivas Sitemap: encontradas no robots.txt.
- Destaque configurações incorretas comuns (disallows muito amplos, sitemaps ausentes, redirecionamentos de host inconsistentes).
- Copie os resultados para tickets de SEO e depuração.
- Exporte um relatório JSON para auditorias, verificações de regressão e monitoramento de CI.
- Seguro por padrão: bloqueia alvos de rede privada e usa um User-Agent fixo.
🧭 Como usar for robots-txt-tester
Insira a URL do site
Cole a URL base do site (por exemplo [https://example.com](https://example.com)). A ferramenta localizará e lerá o robots.txt desse site.
Escolha um User-Agent
Escolha * para simular qualquer bot, ou selecione Googlebot / bingbot para avaliar suas regras de grupo específicas. O comportamento do robots.txt pode diferir por bot.
Defina o caminho para testar
Insira o caminho que deseja validar (por exemplo /private/ ou /products/widget). Ele será avaliado contra as regras Allow/Disallow.
Mantenha “Seguir Redirecionamentos” ativado (recomendado)
Se seu site redireciona http→https ou non-www→www (ou vice-versa), seguir redirecionamentos garante que você avalie o robots.txt do host correto.
Revise o veredito e as linhas de sitemap
Confirme se o caminho é permitido e verifique as diretivas de Sitemap extraídas. Exporte JSON para manter evidências para auditorias ou monitoramento.
Especificações técnicas
O que a ferramenta avalia
O testador busca o robots.txt do site e aplica as regras do grupo User-Agent ao caminho fornecido. Também pode extrair diretivas de Sitemap para validação de SEO.
| Entrada | Significado | Exemplo |
|---|---|---|
| URL do Site | O site base de onde o robots.txt é obtido | [https://example.com](https://example.com) |
| User-Agent | Qual grupo de regras do rastreador avaliar | Googlebot, bingbot, * |
| Caminho para testar | O caminho verificado contra as diretivas Allow/Disallow | /private/ |
Comportamento e segurança da requisição
As requisições são do lado do servidor com limites de segurança e opção de seguir redirecionamentos, o que é importante para configurações de host/protocolo canônico.
| Configuração | Comportamento | Padrão |
|---|---|---|
| Seguir Redirecionamentos | Segue redirecionamentos para o host/protocolo final antes de avaliar | Ativado |
| Máximo de Redirecionamentos | Limite de redirecionamentos quando a opção de seguir está ativada | 10 |
| Tempo Limite | Limite de tempo da requisição | 15000 ms |
| User-Agent (requisições) | Identifica o user agent da requisição da ferramenta | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Redes privadas | Bloqueia destinos de rede privada por segurança | Desativado (redes privadas não permitidas) |
Interpretação prática das regras do robots.txt
O robots.txt é uma diretiva para rastreadores (não um sistema de controle de acesso). Ele ajuda a evitar o rastreamento, mas não garante a desindexação e não protege dados sensíveis.
Linha de comando
Você pode inspecionar rapidamente o robots.txt e confirmar redirecionamentos usando o curl.
macOS / Linux
Obter robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Baixa o conteúdo do robots.txt para inspeção manual.
Seguir redirecionamentos para robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Útil quando o host ou protocolo redireciona (http→https, non-www→www, etc.).
Mostrar cabeçalhos para a requisição do robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Verifica o status HTTP, cabeçalhos de cache e se há redirecionamentos envolvidos.
Windows (PowerShell)
Buscar robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentImprime o conteúdo do robots.txt.
Casos de uso
Diagnosticar problemas de “Indexado, mas bloqueado por robots.txt”
Confirmar qual regra exata bloqueia um caminho e para qual grupo de bots.
- Encontrar um Disallow: / acidental que bloqueia todo o site
- Verificar se as regras do Googlebot diferem das regras *
Validar migrações e alterações de host canônico
Garantir que o host canônico de produção seja rastreável e que o robots.txt esteja presente e correto após redirecionamentos.
- Redirecionamentos http→https ainda permitem a descoberta do robots.txt
- O host canônico www/non-www serve as regras pretendidas
Verificar declarações de sitemap
Extrair linhas Sitemap: e garantir que apontem para as URLs de sitemap corretas e acessíveis.
- Verificar se as URLs do sitemap usam o host canônico e https
- Detectar diretivas Sitemap ausentes em sites grandes
Evitar desperdício acidental de rastreamento
Bloquear caminhos verdadeiramente irrelevantes (admin, busca interna, parâmetros) mantendo seções valiosas rastreáveis.
- Disallow em URLs de busca interna
- Allow em caminhos importantes de paginação/categoria
❓ Frequently Asked Questions
❓O robots.txt impede a indexação?
❓O robots.txt é um recurso de segurança?
❓Por que devo testar diferentes User-Agents?
❓Por que “Seguir Redirecionamentos” é importante?
❓Qual é a configuração padrão mais segura?
❓Posso bloquear o rastreamento mas ainda permitir a indexação?
Pro Tips
Sempre teste o robots.txt no host e protocolo canônicos (https + sua escolha de www/não-www). Muitos incidentes de "bloqueio" vêm da edição do robots.txt do host errado.
Não use robots.txt para desindexar. Se precisar de remoção, use noindex (e permita o rastreamento), além de remover links internos e atualizar sitemaps.
Inclua diretivas Sitemap: apontando para URLs de sitemap canônicos e acessíveis (https, nome de host correto).
Durante implantações/migrações, adicione uma verificação rápida de CI que confirme que o robots.txt existe, retorna 200 e não contém Disallow: / para produção.
Evite bloquear excessivamente com padrões amplos. Bloquear recursos ou seções-chave pode prejudicar a renderização e a descoberta.
Additional Resources
Other Tools
- Embelezador CSS
- Embelezador HTML
- Embelezador Javascript
- Embelezador PHP
- Seletor de Cores
- Extrator de Sprites
- Codificador Binário Base32
- Decodificador Base32
- Codificador Base32
- Codificador Binário Base58
- Decodificador Base58
- Codificador Base58
- Codificador Binário Base62
- Decodificador Base62
- Codificador Base62
- Codificador Binário Base64
- Decodificador Base64
- Codificador Base64
- Codificador Binário Hexadecimal
- Decodificador Hexadecimal
- Codificador Hexadecimal
- Formatador Csharp
- Formatador CSV
- Dockerfile Formatter
- Formatador Elm
- Formatador ENV
- Formatador Go
- Formatador GraphQL
- Formatador HCL
- Formatador INI
- Formatador JSON
- Formatador LaTeX
- Formatador Markdown
- Formatador Objective-C
- Php Formatter
- Formatador Proto
- Formatador Python
- Formatador Ruby
- Formatador Rust
- Formatador Scala
- Formatador de Script Shell
- Formatador SQL
- Formatador SVG
- Formatador Swift
- Formatador TOML
- Typescript Formatter
- Formatador XML
- Formatador YAML
- Formatador Yarn
- Minificador CSS
- Html Minifier
- Javascript Minifier
- Minificador JSON
- Minificador XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Visualizador de Cabeçalhos HTTP
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF para Texto
- Testador de Regex
- Verificador de Classificação SERP
- Consulta Whois