Probador de Robots.txt
Prueba si una ruta específica está permitida para un rastreador según las reglas robots.txt de un sitio. Elige un User-Agent (por ejemplo, Googlebot, bingbot, o *), sigue redirecciones para alcanzar el robots.txt final, extrae directivas Sitemap y exporta resultados a JSON para auditorías SEO y monitoreo.
Características
- Prueba una ruta específica contra robots.txt para un User-Agent seleccionado (Googlebot, bingbot, o *).
- Sigue redirecciones para alcanzar el host/protocolo correcto antes de evaluar las reglas.
- Extrae y valida directivas Sitemap: encontradas en robots.txt.
- Resalta configuraciones erróneas comunes (disallows demasiado amplios, sitemaps faltantes, redirecciones de host inconsistentes).
- Copia resultados para tickets SEO y depuración.
- Exporta un informe JSON para auditorías, comprobaciones de regresión y monitoreo CI.
- Seguro por defecto: bloquea objetivos de red privada y usa un User-Agent fijo.
🧭 Cómo usar for robots-txt-tester
Ingresa la URL del sitio
Pega la URL base del sitio (por ejemplo [https://example.com](https://example.com)). La herramienta localizará y leerá el robots.txt de ese sitio.
Elige un User-Agent
Elige * para simular cualquier bot, o selecciona Googlebot / bingbot para evaluar sus reglas de grupo específicas. El comportamiento de robots.txt puede diferir por bot.
Establece la ruta a probar
Ingresa la ruta que quieres validar (por ejemplo /private/ o /products/widget). Esta se evalúa contra las reglas Allow/Disallow.
Mantén "Seguir Redirecciones" habilitado (recomendado)
Si tu sitio redirige http→https o non-www→www (o viceversa), seguir redirecciones asegura que evalúes el robots.txt del host correcto.
Revisa el veredicto y las líneas de sitemap
Confirma si la ruta está permitida y revisa las directivas Sitemap extraídas. Exporta JSON para guardar evidencia para auditorías o monitoreo.
Especificaciones técnicas
Qué evalúa la herramienta
El probador obtiene el robots.txt del sitio y aplica las reglas del grupo User-Agent a la ruta proporcionada. También puede extraer directivas Sitemap para validación SEO.
| Entrada | Significado | Ejemplo |
|---|---|---|
| URL del sitio | El sitio base desde donde se obtiene el robots.txt | [https://example.com](https://example.com) |
| Agente de usuario | Qué grupo de reglas de rastreador evaluar | Googlebot, bingbot, * |
| Ruta a probar | La ruta verificada contra las directivas Allow/Disallow | /private/ |
Comportamiento y seguridad de las solicitudes
Las solicitudes se realizan del lado del servidor con límites de seguridad y seguimiento opcional de redirecciones, lo cual es importante para configuraciones de host/protocolo canónicas.
| Configuración | Comportamiento | Predeterminado |
|---|---|---|
| Seguir redirecciones | Sigue las redirecciones al host/protocolo final antes de evaluar | Habilitado |
| Redirecciones máximas | Límite de redirecciones cuando el seguimiento está habilitado | 10 |
| Tiempo de espera | Límite de tiempo de espera de la solicitud | 15000 ms |
| Agente de usuario (solicitudes) | Identifica el agente de usuario de la solicitud de la herramienta | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Redes privadas | Bloquea destinos de red privada por seguridad | Deshabilitado (redes privadas no permitidas) |
Interpretación práctica de las reglas de robots.txt
Robots.txt es una directiva para rastreadores (no un sistema de control de acceso). Ayuda a prevenir el rastreo, pero no garantiza la desindexación y no protege datos sensibles.
Línea de comandos
Puedes inspeccionar rápidamente robots.txt y confirmar redirecciones usando curl.
macOS / Linux
Obtener robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Descarga el contenido de robots.txt para inspección manual.
Seguir redirecciones a robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Útil cuando el host o el protocolo redirige (http→https, no-www→www, etc.).
Mostrar encabezados para la solicitud de robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Verifica el estado HTTP, los encabezados de caché y si hay redirecciones involucradas.
Windows (PowerShell)
Obtener robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentImprime el contenido de robots.txt.
Casos de uso
Diagnosticar problemas de "Indexado, pero bloqueado por robots.txt"
Confirmar qué regla exacta bloquea una ruta y para qué grupo de bots.
- Encontrar un Disallow: / accidental que bloquea todo el sitio
- Verificar que las reglas de Googlebot difieran de las reglas *
Validar migraciones y cambios de host canónico
Asegurarse de que el host canónico de producción sea rastreable y que el robots.txt esté presente y sea correcto después de las redirecciones.
- Las redirecciones http→https aún permiten el descubrimiento de robots.txt
- El host canónico www/no-www sirve las reglas deseadas
Verificar declaraciones de mapa del sitio
Extraer líneas Sitemap: y asegurarse de que apunten a las URL de sitemap correctas y accesibles.
- Verificar que las URL del sitemap usen el host canónico y https
- Detectar directivas Sitemap faltantes en sitios grandes
Prevenir el desperdicio accidental de rastreo
Bloquear rutas realmente sin importancia (admin, búsqueda interna, parámetros) manteniendo rastreables las secciones valiosas.
- Desautorizar URL de búsqueda interna
- Permitir rutas importantes paginadas/de categoría
❓ Frequently Asked Questions
❓¿Evita robots.txt la indexación?
❓¿Es robots.txt una función de seguridad?
❓¿Por qué debería probar diferentes User-Agents?
❓¿Por qué importa "Seguir Redirecciones"?
❓¿Cuál es la configuración predeterminada más segura?
❓¿Puedo bloquear el rastreo pero permitir la indexación?
Pro Tips
Siempre prueba robots.txt en el host y protocolo canónicos (https + tu elección de www/no-www). Muchos incidentes de "bloqueo" provienen de editar el robots.txt del host incorrecto.
No uses robots.txt para desindexar. Si necesitas eliminación, usa noindex (y permite el rastreo), además elimina enlaces internos y actualiza los mapas del sitio.
Incluye directivas Sitemap: que apunten a URL de mapas del sitio canónicas y accesibles (https, nombre de host correcto).
Durante despliegues/migraciones, añade una verificación rápida de CI que confirme que robots.txt existe, devuelve 200 y no contiene Disallow: / para producción.
Evita bloquear en exceso con patrones amplios. Bloquear recursos o secciones clave puede perjudicar la renderización y el descubrimiento.
Additional Resources
Other Tools
- Embellecedor CSS
- Embellecedor HTML
- Embellecedor JavaScript
- Embellecedor PHP
- Selector de Color
- Extractor de Sprites
- Codificador Binario Base32
- Decodificador Base32
- Codificador Base32
- Codificador Binario Base58
- Decodificador Base58
- Codificador Base58
- Codificador Binario Base62
- Decodificador Base62
- Codificador Base62
- Codificador Binario Base64
- Decodificador Base64
- Codificador Base64
- Codificador Binario Hexadecimal
- Decodificador Hexadecimal
- Codificador Hexadecimal
- Formateador C#
- Formateador CSV
- Dockerfile Formatter
- Formateador Elm
- Formateador ENV
- Formateador Go
- Formateador GraphQL
- Formateador HCL
- Formateador INI
- Formateador JSON
- Formateador LaTeX
- Formateador Markdown
- Formateador Objective-C
- Php Formatter
- Formateador Proto
- Formateador Python
- Formateador Ruby
- Formateador Rust
- Formateador Scala
- Formateador de Scripts de Shell
- Formateador SQL
- Formateador SVG
- Formateador Swift
- Formateador TOML
- Typescript Formatter
- Formateador XML
- Formateador YAML
- Formateador Yarn
- Minificador CSS
- Html Minifier
- Javascript Minifier
- Minificador JSON
- Minificador XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Visor de Encabezados HTTP
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF a Texto
- Probador de Expresiones Regulares
- Verificador de Posición en SERP
- Consulta Whois