Tester Robots.txt

Verifica se un percorso specifico è consentito per un crawler in base alle regole robots.txt di un sito. Scegli un User-Agent (es. Googlebot, bingbot, o *), segui i reindirizzamenti per raggiungere il robots.txt finale, estrai le direttive Sitemap ed esporta i risultati in JSON per audit SEO e monitoraggio.

Loading…

Informazioni Tester Robots.txt

Robots.txt controlla l'accesso dei crawler a livello di sito. Questo strumento recupera il robots.txt del sito, applica le sue regole per un User-Agent scelto e ti dice se un percorso specifico dovrebbe essere consentito o bloccato. È perfetto per diagnosticare problemi di indicizzazione, convalidare modifiche di migrazione e assicurarsi di non aver bloccato accidentalmente sezioni importanti (o esposto quelle private).

Funzionalità

  • Testa un percorso specifico rispetto al robots.txt per un User-Agent selezionato (Googlebot, bingbot, o *).
  • Segui i reindirizzamenti per raggiungere l'host/protocollo corretto prima di valutare le regole.
  • Estrai e convalida le direttive Sitemap: trovate nel robots.txt.
  • Evidenzia configurazioni errate comuni (disallow troppo ampi, sitemap mancanti, reindirizzamenti host incoerenti).
  • Copia i risultati per ticket SEO e debug.
  • Esporta un report JSON per audit, controlli di regressione e monitoraggio CI.
  • Sicuro per impostazione predefinita: blocca target di rete privata e utilizza un User-Agent fisso.

🧭 Come usare for robots-txt-tester

1

Inserisci l'URL del sito

Incolla l'URL base del sito (ad esempio [https://example.com](https://example.com)). Lo strumento individuerà e leggerà il robots.txt per quel sito.

2

Scegli un User-Agent

Scegli * per simulare qualsiasi bot, o seleziona Googlebot / bingbot per valutare le loro regole di gruppo specifiche. Il comportamento di Robots.txt può differire per bot.

3

Imposta il percorso da testare

Inserisci il percorso che desideri convalidare (ad esempio /private/ o /products/widget). Questo viene valutato rispetto alle regole Allow/Disallow.

4

Mantieni "Segui Reindirizzamenti" abilitato (consigliato)

Se il tuo sito reindirizza da http a https o da non-www a www (o viceversa), seguire i reindirizzamenti garantisce di valutare il robots.txt dell'host corretto.

5

Rivedi il verdetto e le righe sitemap

Conferma se il percorso è consentito e controlla le direttive Sitemap estratte. Esporta JSON per conservare le prove per audit o monitoraggio.

Specifiche tecniche

Cosa valuta lo strumento

Il tester recupera il robots.txt del sito e applica le regole del gruppo User-Agent al percorso fornito. Può anche estrarre le direttive Sitemap per la convalida SEO.

InputSignificatoEsempio
URL del sitoIl sito base da cui viene recuperato il robots.txt[https://example.com](https://example.com)
User-AgentQuali regole del gruppo di crawler valutareGooglebot, bingbot, *
Percorso da testareIl percorso verificato rispetto alle direttive Allow/Disallow/private/

Comportamento e sicurezza delle richieste

Le richieste sono lato server con limiti di sicurezza e opzione di seguire i reindirizzamenti, importante per configurazioni di host/protocollo canonico.

ImpostazioneComportamentoPredefinito
Segui ReindirizzamentiSegue i reindirizzamenti verso l'host/protocollo finale prima della valutazioneAbilitato
Reindirizzamenti MassimiLimite di reindirizzamenti quando il seguire è abilitato10
TimeoutLimite di timeout della richiesta15000 ms
User-Agent (richieste)Identifica l'user agent della richiesta dello strumentoEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Reti privateBlocca i target di rete privata per sicurezzaDisabilitato (reti private non consentite)

Interpretazione pratica delle regole robots.txt

Il robots.txt è una direttiva per i crawler (non un sistema di controllo degli accessi). Aiuta a prevenire la scansione, ma non garantisce la deindicizzazione e non protegge i dati sensibili.

Se devi proteggere contenuti privati, usa autenticazione e autorizzazione appropriata. Per la deindicizzazione, affidati agli header/meta noindex e rimuovi i link pubblici—il robots.txt da solo non è uno strumento di rimozione.

Riga di comando

Puoi ispezionare rapidamente il robots.txt e confermare i reindirizzamenti usando curl.

macOS / Linux

Recupera robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Scarica il contenuto di robots.txt per l'ispezione manuale.

Segui i reindirizzamenti a robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Utile quando l'host o il protocollo reindirizza (http→https, non-www→www, ecc.).

Mostra le intestazioni per la richiesta di robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Controlla lo stato HTTP, le intestazioni di cache e se sono coinvolti reindirizzamenti.

Windows (PowerShell)

Recupera robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Stampa il contenuto di robots.txt.

Durante le migrazioni, verifica robots.txt su ogni host canonico e variante di protocollo (http/https + www/non-www) per evitare di bloccare accidentalmente la scansione sull'host canonico di produzione.

Casi d'uso

Diagnosticare problemi di “Indicizzato, ma bloccato da robots.txt”

Conferma quale regola esatta blocca un percorso e per quale gruppo di bot.

  • Trova un Disallow: / accidentale che blocca l'intero sito
  • Verifica che le regole per Googlebot differiscano da quelle per *

Convalidare migrazioni e cambiamenti dell'host canonico

Assicurati che l'host canonico di produzione sia scansionabile e che robots.txt sia presente e corretto dopo i reindirizzamenti.

  • I reindirizzamenti http→https consentono ancora la scoperta di robots.txt
  • L'host canonico www/non-www fornisce le regole previste

Controllare le dichiarazioni della sitemap

Estrai le righe Sitemap: e assicurati che puntino agli URL della sitemap corretti e accessibili.

  • Verifica che gli URL della sitemap utilizzino l'host canonico e https
  • Rileva direttive Sitemap mancanti su siti di grandi dimensioni

Prevenire sprechi accidentali di scansione

Blocca percorsi veramente non importanti (amministrazione, ricerca interna, parametri) mantenendo scansionabili le sezioni di valore.

  • Disallow per gli URL di ricerca interna
  • Allow per percorsi importanti di paginazione/categoria

❓ Frequently Asked Questions

Robots.txt impedisce l'indicizzazione?

Non in modo affidabile. Robots.txt controlla la scansione, non l'indicizzazione. Un URL può comunque apparire indicizzato se altre pagine vi si collegano o se è già noto, anche se bloccato dalla scansione. Usa noindex per strategie di deindicizzazione.

Robots.txt è una funzionalità di sicurezza?

No. È un file pubblico e solo una direttiva per i crawler conformi. Non usare mai robots.txt per proteggere pagine sensibili: utilizza invece autenticazione e autorizzazione.

Perché dovrei testare diversi User-Agent?

Robots.txt può definire diversi gruppi di regole per User-Agent. Un percorso potrebbe essere consentito per un crawler e bloccato per un altro, a seconda della configurazione.

Perché “Segui Reindirizzamenti” è importante?

Perché robots.txt è specifico per host. Se il tuo sito reindirizza a un host/protocollo canonico, seguire i reindirizzamenti garantisce di valutare le regole robots.txt della destinazione finale.

Qual è la configurazione predefinita più sicura?

Mantieni i contenuti critici indicizzabili, blocca solo gli URL veramente inutili e pubblica sempre una sitemap (o più sitemap) sull'host https canonico. Evita pattern Disallow ampi a meno che non ne sia sicuro.

Posso bloccare la scansione ma consentire comunque l'indicizzazione?

Se blocchi la scansione tramite robots.txt ma l'URL è collegato esternamente, i motori di ricerca potrebbero comunque indicizzare l'URL senza analizzarne il contenuto. Se hai bisogno di deindicizzare, usa noindex (e consenti la scansione in modo che i bot possano vederlo).

Pro Tips

Best Practice

Testa sempre robots.txt sull'host e protocollo canonici (https + la tua scelta www/non-www). Molti incidenti di "blocco" derivano dalla modifica del robots.txt dell'host sbagliato.

Best Practice

Non usare robots.txt per deindicizzare. Se hai bisogno di rimuovere, usa noindex (e consenti la scansione), oltre a rimuovere i link interni e aggiornare le sitemap.

CI Tip

Includi le direttive Sitemap: che puntano a URL di sitemap canoniche e accessibili (https, hostname corretto).

CI Tip

Durante le distribuzioni/migrazioni, aggiungi un controllo CI rapido che verifichi l'esistenza di robots.txt, restituisca 200 e non contenga Disallow: / per la produzione.

Performance Tip

Evita di bloccare eccessivamente con pattern ampi. Bloccare risorse o sezioni chiave può danneggiare il rendering e la scoperta.

Additional Resources

Other Tools