Probador de Robots.txt

Prueba si una ruta específica está permitida para un rastreador según las reglas robots.txt de un sitio. Elige un User-Agent (por ejemplo, Googlebot, bingbot, o *), sigue redirecciones para alcanzar el robots.txt final, extrae directivas Sitemap y exporta resultados a JSON para auditorías SEO y monitoreo.

Loading…

Acerca de Probador de Robots.txt

Robots.txt controla el acceso de los rastreadores a nivel del sitio. Esta herramienta obtiene el robots.txt del sitio, aplica sus reglas para un User-Agent elegido y te indica si una ruta específica debería permitirse o bloquearse. Es perfecta para diagnosticar problemas de indexación, validar cambios de migración y asegurarte de no haber bloqueado accidentalmente secciones importantes (o expuesto privadas).

Características

  • Prueba una ruta específica contra robots.txt para un User-Agent seleccionado (Googlebot, bingbot, o *).
  • Sigue redirecciones para alcanzar el host/protocolo correcto antes de evaluar las reglas.
  • Extrae y valida directivas Sitemap: encontradas en robots.txt.
  • Resalta configuraciones erróneas comunes (disallows demasiado amplios, sitemaps faltantes, redirecciones de host inconsistentes).
  • Copia resultados para tickets SEO y depuración.
  • Exporta un informe JSON para auditorías, comprobaciones de regresión y monitoreo CI.
  • Seguro por defecto: bloquea objetivos de red privada y usa un User-Agent fijo.

🧭 Cómo usar for robots-txt-tester

1

Ingresa la URL del sitio

Pega la URL base del sitio (por ejemplo [https://example.com](https://example.com)). La herramienta localizará y leerá el robots.txt de ese sitio.

2

Elige un User-Agent

Elige * para simular cualquier bot, o selecciona Googlebot / bingbot para evaluar sus reglas de grupo específicas. El comportamiento de robots.txt puede diferir por bot.

3

Establece la ruta a probar

Ingresa la ruta que quieres validar (por ejemplo /private/ o /products/widget). Esta se evalúa contra las reglas Allow/Disallow.

4

Mantén "Seguir Redirecciones" habilitado (recomendado)

Si tu sitio redirige http→https o non-www→www (o viceversa), seguir redirecciones asegura que evalúes el robots.txt del host correcto.

5

Revisa el veredicto y las líneas de sitemap

Confirma si la ruta está permitida y revisa las directivas Sitemap extraídas. Exporta JSON para guardar evidencia para auditorías o monitoreo.

Especificaciones técnicas

Qué evalúa la herramienta

El probador obtiene el robots.txt del sitio y aplica las reglas del grupo User-Agent a la ruta proporcionada. También puede extraer directivas Sitemap para validación SEO.

EntradaSignificadoEjemplo
URL del sitioEl sitio base desde donde se obtiene el robots.txt[https://example.com](https://example.com)
Agente de usuarioQué grupo de reglas de rastreador evaluarGooglebot, bingbot, *
Ruta a probarLa ruta verificada contra las directivas Allow/Disallow/private/

Comportamiento y seguridad de las solicitudes

Las solicitudes se realizan del lado del servidor con límites de seguridad y seguimiento opcional de redirecciones, lo cual es importante para configuraciones de host/protocolo canónicas.

ConfiguraciónComportamientoPredeterminado
Seguir redireccionesSigue las redirecciones al host/protocolo final antes de evaluarHabilitado
Redirecciones máximasLímite de redirecciones cuando el seguimiento está habilitado10
Tiempo de esperaLímite de tiempo de espera de la solicitud15000 ms
Agente de usuario (solicitudes)Identifica el agente de usuario de la solicitud de la herramientaEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Redes privadasBloquea destinos de red privada por seguridadDeshabilitado (redes privadas no permitidas)

Interpretación práctica de las reglas de robots.txt

Robots.txt es una directiva para rastreadores (no un sistema de control de acceso). Ayuda a prevenir el rastreo, pero no garantiza la desindexación y no protege datos sensibles.

Si necesitas proteger contenido privado, usa autenticación y autorización adecuada. Para la desindexación, confía en las cabeceras/meta noindex y elimina enlaces públicos—robots.txt por sí solo no es una herramienta de eliminación.

Línea de comandos

Puedes inspeccionar rápidamente robots.txt y confirmar redirecciones usando curl.

macOS / Linux

Obtener robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Descarga el contenido de robots.txt para inspección manual.

Seguir redirecciones a robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Útil cuando el host o el protocolo redirige (http→https, no-www→www, etc.).

Mostrar encabezados para la solicitud de robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Verifica el estado HTTP, los encabezados de caché y si hay redirecciones involucradas.

Windows (PowerShell)

Obtener robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Imprime el contenido de robots.txt.

Durante las migraciones, verifica el robots.txt en cada host canónico y variante de protocolo (http/https + www/no-www) para evitar bloquear accidentalmente el rastreo en el host canónico de producción.

Casos de uso

Diagnosticar problemas de "Indexado, pero bloqueado por robots.txt"

Confirmar qué regla exacta bloquea una ruta y para qué grupo de bots.

  • Encontrar un Disallow: / accidental que bloquea todo el sitio
  • Verificar que las reglas de Googlebot difieran de las reglas *

Validar migraciones y cambios de host canónico

Asegurarse de que el host canónico de producción sea rastreable y que el robots.txt esté presente y sea correcto después de las redirecciones.

  • Las redirecciones http→https aún permiten el descubrimiento de robots.txt
  • El host canónico www/no-www sirve las reglas deseadas

Verificar declaraciones de mapa del sitio

Extraer líneas Sitemap: y asegurarse de que apunten a las URL de sitemap correctas y accesibles.

  • Verificar que las URL del sitemap usen el host canónico y https
  • Detectar directivas Sitemap faltantes en sitios grandes

Prevenir el desperdicio accidental de rastreo

Bloquear rutas realmente sin importancia (admin, búsqueda interna, parámetros) manteniendo rastreables las secciones valiosas.

  • Desautorizar URL de búsqueda interna
  • Permitir rutas importantes paginadas/de categoría

❓ Frequently Asked Questions

¿Evita robots.txt la indexación?

No de manera confiable. Robots.txt controla el rastreo, no la indexación. Una URL aún puede aparecer indexada si otras páginas enlazan a ella o ya es conocida, incluso si está bloqueada para rastreo. Usa noindex para estrategias de desindexación.

¿Es robots.txt una función de seguridad?

No. Es un archivo público y solo una directiva para rastreadores compatibles. Nunca uses robots.txt para proteger páginas sensibles; usa autenticación y autorización en su lugar.

¿Por qué debería probar diferentes User-Agents?

Robots.txt puede definir diferentes grupos de reglas por User-Agent. Una ruta podría estar permitida para un rastreador y bloqueada para otro, dependiendo de tu configuración.

¿Por qué importa "Seguir Redirecciones"?

Porque robots.txt es específico del host. Si tu sitio redirige a un host/protocolo canónico, seguir las redirecciones asegura que evalúes las reglas del robots.txt del destino final.

¿Cuál es la configuración predeterminada más segura?

Mantén el contenido crítico rastreable, bloquea solo las URL realmente inútiles y siempre publica un mapa del sitio (o varios mapas del sitio) en el host canónico https. Evita patrones amplios de Disallow a menos que estés seguro.

¿Puedo bloquear el rastreo pero permitir la indexación?

Si bloqueas el rastreo mediante robots.txt pero la URL está enlazada externamente, los motores de búsqueda aún pueden indexar la URL sin rastrear su contenido. Si necesitas desindexar, usa noindex (y permite el rastreo para que los bots puedan verlo).

Pro Tips

Best Practice

Siempre prueba robots.txt en el host y protocolo canónicos (https + tu elección de www/no-www). Muchos incidentes de "bloqueo" provienen de editar el robots.txt del host incorrecto.

Best Practice

No uses robots.txt para desindexar. Si necesitas eliminación, usa noindex (y permite el rastreo), además elimina enlaces internos y actualiza los mapas del sitio.

CI Tip

Incluye directivas Sitemap: que apunten a URL de mapas del sitio canónicas y accesibles (https, nombre de host correcto).

CI Tip

Durante despliegues/migraciones, añade una verificación rápida de CI que confirme que robots.txt existe, devuelve 200 y no contiene Disallow: / para producción.

Best Practice

Evita bloquear en exceso con patrones amplios. Bloquear recursos o secciones clave puede perjudicar la renderización y el descubrimiento.

Additional Resources

Other Tools