Tester Robots.txt

Verifica se un percorso specifico è consentito per un crawler in base alle regole robots.txt di un sito. Scegli un User-Agent (es. Googlebot, bingbot, o *), segui i reindirizzamenti per raggiungere il robots.txt finale, estrai le direttive Sitemap ed esporta i risultati in JSON per audit SEO e monitoraggio.

Loading…

Informazioni Tester Robots.txt

Robots.txt controlla l'accesso dei crawler a livello di sito. Questo strumento recupera il robots.txt del sito, applica le sue regole per un User-Agent scelto e ti dice se un percorso specifico dovrebbe essere consentito o bloccato. È perfetto per diagnosticare problemi di indicizzazione, convalidare modifiche di migrazione e assicurarsi di non aver bloccato accidentalmente sezioni importanti (o esposto quelle private).

Funzionalità

Testa un percorso specifico rispetto al robots.txt per un User-Agent selezionato (Googlebot, bingbot, o *).
Segui i reindirizzamenti per raggiungere l'host/protocollo corretto prima di valutare le regole.
Estrai e convalida le direttive Sitemap: trovate nel robots.txt.
Evidenzia configurazioni errate comuni (disallow troppo ampi, sitemap mancanti, reindirizzamenti host incoerenti).
Copia i risultati per ticket SEO e debug.
Esporta un report JSON per audit, controlli di regressione e monitoraggio CI.
Sicuro per impostazione predefinita: blocca target di rete privata e utilizza un User-Agent fisso.

🧭 Come usare for robots-txt-tester

Inserisci l'URL del sito

Incolla l'URL base del sito (ad esempio [https://example.com](https://example.com)). Lo strumento individuerà e leggerà il robots.txt per quel sito.

Scegli un User-Agent

Scegli * per simulare qualsiasi bot, o seleziona Googlebot / bingbot per valutare le loro regole di gruppo specifiche. Il comportamento di Robots.txt può differire per bot.

Imposta il percorso da testare

Inserisci il percorso che desideri convalidare (ad esempio /private/ o /products/widget). Questo viene valutato rispetto alle regole Allow/Disallow.

Mantieni "Segui Reindirizzamenti" abilitato (consigliato)

Se il tuo sito reindirizza da http a https o da non-www a www (o viceversa), seguire i reindirizzamenti garantisce di valutare il robots.txt dell'host corretto.

Rivedi il verdetto e le righe sitemap

Conferma se il percorso è consentito e controlla le direttive Sitemap estratte. Esporta JSON per conservare le prove per audit o monitoraggio.

Specifiche tecniche

Cosa valuta lo strumento

Il tester recupera il robots.txt del sito e applica le regole del gruppo User-Agent al percorso fornito. Può anche estrarre le direttive Sitemap per la convalida SEO.

Input	Significato	Esempio
URL del sito	Il sito base da cui viene recuperato il robots.txt	[https://example.com](https://example.com)
User-Agent	Quali regole del gruppo di crawler valutare	Googlebot, bingbot, *
Percorso da testare	Il percorso verificato rispetto alle direttive Allow/Disallow	/private/

Comportamento e sicurezza delle richieste

Le richieste sono lato server con limiti di sicurezza e opzione di seguire i reindirizzamenti, importante per configurazioni di host/protocollo canonico.

Impostazione	Comportamento	Predefinito
Segui Reindirizzamenti	Segue i reindirizzamenti verso l'host/protocollo finale prima della valutazione	Abilitato
Reindirizzamenti Massimi	Limite di reindirizzamenti quando il seguire è abilitato	10
Timeout	Limite di timeout della richiesta	15000 ms
User-Agent (richieste)	Identifica l'user agent della richiesta dello strumento	Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Reti private	Blocca i target di rete privata per sicurezza	Disabilitato (reti private non consentite)

Interpretazione pratica delle regole robots.txt

Il robots.txt è una direttiva per i crawler (non un sistema di controllo degli accessi). Aiuta a prevenire la scansione, ma non garantisce la deindicizzazione e non protegge i dati sensibili.

Se devi proteggere contenuti privati, usa autenticazione e autorizzazione appropriata. Per la deindicizzazione, affidati agli header/meta noindex e rimuovi i link pubblici—il robots.txt da solo non è uno strumento di rimozione.

Riga di comando

Puoi ispezionare rapidamente il robots.txt e confermare i reindirizzamenti usando curl.

macOS / Linux

Recupera robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Scarica il contenuto di robots.txt per l'ispezione manuale.

Segui i reindirizzamenti a robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Utile quando l'host o il protocollo reindirizza (http→https, non-www→www, ecc.).

Mostra le intestazioni per la richiesta di robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Controlla lo stato HTTP, le intestazioni di cache e se sono coinvolti reindirizzamenti.

Windows (PowerShell)

Recupera robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Stampa il contenuto di robots.txt.

Durante le migrazioni, verifica robots.txt su ogni host canonico e variante di protocollo (http/https + www/non-www) per evitare di bloccare accidentalmente la scansione sull'host canonico di produzione.

Casi d'uso

Diagnosticare problemi di “Indicizzato, ma bloccato da robots.txt”

Conferma quale regola esatta blocca un percorso e per quale gruppo di bot.

Trova un Disallow: / accidentale che blocca l'intero sito
Verifica che le regole per Googlebot differiscano da quelle per *

Convalidare migrazioni e cambiamenti dell'host canonico

Assicurati che l'host canonico di produzione sia scansionabile e che robots.txt sia presente e corretto dopo i reindirizzamenti.

I reindirizzamenti http→https consentono ancora la scoperta di robots.txt
L'host canonico www/non-www fornisce le regole previste

Controllare le dichiarazioni della sitemap

Estrai le righe Sitemap: e assicurati che puntino agli URL della sitemap corretti e accessibili.

Verifica che gli URL della sitemap utilizzino l'host canonico e https
Rileva direttive Sitemap mancanti su siti di grandi dimensioni

Prevenire sprechi accidentali di scansione

Blocca percorsi veramente non importanti (amministrazione, ricerca interna, parametri) mantenendo scansionabili le sezioni di valore.

Disallow per gli URL di ricerca interna
Allow per percorsi importanti di paginazione/categoria

❓ Frequently Asked Questions

❓Robots.txt impedisce l'indicizzazione?

Non in modo affidabile. Robots.txt controlla la scansione, non l'indicizzazione. Un URL può comunque apparire indicizzato se altre pagine vi si collegano o se è già noto, anche se bloccato dalla scansione. Usa noindex per strategie di deindicizzazione.

❓Robots.txt è una funzionalità di sicurezza?

No. È un file pubblico e solo una direttiva per i crawler conformi. Non usare mai robots.txt per proteggere pagine sensibili: utilizza invece autenticazione e autorizzazione.

❓Perché dovrei testare diversi User-Agent?

Robots.txt può definire diversi gruppi di regole per User-Agent. Un percorso potrebbe essere consentito per un crawler e bloccato per un altro, a seconda della configurazione.

❓Perché “Segui Reindirizzamenti” è importante?

Perché robots.txt è specifico per host. Se il tuo sito reindirizza a un host/protocollo canonico, seguire i reindirizzamenti garantisce di valutare le regole robots.txt della destinazione finale.

❓Qual è la configurazione predefinita più sicura?

Mantieni i contenuti critici indicizzabili, blocca solo gli URL veramente inutili e pubblica sempre una sitemap (o più sitemap) sull'host https canonico. Evita pattern Disallow ampi a meno che non ne sia sicuro.

❓Posso bloccare la scansione ma consentire comunque l'indicizzazione?

Se blocchi la scansione tramite robots.txt ma l'URL è collegato esternamente, i motori di ricerca potrebbero comunque indicizzare l'URL senza analizzarne il contenuto. Se hai bisogno di deindicizzare, usa noindex (e consenti la scansione in modo che i bot possano vederlo).

Pro Tips

Best Practice

Testa sempre robots.txt sull'host e protocollo canonici (https + la tua scelta www/non-www). Molti incidenti di "blocco" derivano dalla modifica del robots.txt dell'host sbagliato.

Best Practice

Non usare robots.txt per deindicizzare. Se hai bisogno di rimuovere, usa noindex (e consenti la scansione), oltre a rimuovere i link interni e aggiornare le sitemap.

CI Tip

Includi le direttive Sitemap: che puntano a URL di sitemap canoniche e accessibili (https, hostname corretto).

CI Tip

Durante le distribuzioni/migrazioni, aggiungi un controllo CI rapido che verifichi l'esistenza di robots.txt, restituisca 200 e non contenga Disallow: / per la produzione.

Performance Tip

Evita di bloccare eccessivamente con pattern ampi. Bloccare risorse o sezioni chiave può danneggiare il rendering e la scoperta.

Additional Resources

Specifica robots.txt (RFC 9309)

Documentation

Google Search Central: robots.txt

Documentation

Google Search Central: test e problemi comuni di robots.txt

Documentation

Tester Robots.txt

Informazioni Tester Robots.txt

✨ Funzionalità

🧭 Come usare for robots-txt-tester

Inserisci l'URL del sito

Scegli un User-Agent

Imposta il percorso da testare

Mantieni "Segui Reindirizzamenti" abilitato (consigliato)

Rivedi il verdetto e le righe sitemap

🧩 Specifiche tecniche

📄Cosa valuta lo strumento

⚙️Comportamento e sicurezza delle richieste

🧠Interpretazione pratica delle regole robots.txt

💻 Riga di comando

🧑‍💻macOS / Linux

🪟Windows (PowerShell)

🎯 Casi d'uso

🧪Diagnosticare problemi di “Indicizzato, ma bloccato da robots.txt”

🚚Convalidare migrazioni e cambiamenti dell'host canonico

🗺️Controllare le dichiarazioni della sitemap

🧰Prevenire sprechi accidentali di scansione

❓ Frequently Asked Questions

❓Robots.txt impedisce l'indicizzazione?

❓Robots.txt è una funzionalità di sicurezza?

❓Perché dovrei testare diversi User-Agent?

❓Perché “Segui Reindirizzamenti” è importante?

❓Qual è la configurazione predefinita più sicura?

❓Posso bloccare la scansione ma consentire comunque l'indicizzazione?

Pro Tips

Additional Resources

Other Tools

Funzionalità

Specifiche tecniche

Cosa valuta lo strumento

Comportamento e sicurezza delle richieste

Interpretazione pratica delle regole robots.txt

Riga di comando

macOS / Linux

Windows (PowerShell)

Casi d'uso

Diagnosticare problemi di “Indicizzato, ma bloccato da robots.txt”

Convalidare migrazioni e cambiamenti dell'host canonico

Controllare le dichiarazioni della sitemap

Prevenire sprechi accidentali di scansione