Tester Robots.txt
Verifica se un percorso specifico è consentito per un crawler in base alle regole robots.txt di un sito. Scegli un User-Agent (es. Googlebot, bingbot, o *), segui i reindirizzamenti per raggiungere il robots.txt finale, estrai le direttive Sitemap ed esporta i risultati in JSON per audit SEO e monitoraggio.
Funzionalità
- Testa un percorso specifico rispetto al robots.txt per un User-Agent selezionato (Googlebot, bingbot, o *).
- Segui i reindirizzamenti per raggiungere l'host/protocollo corretto prima di valutare le regole.
- Estrai e convalida le direttive Sitemap: trovate nel robots.txt.
- Evidenzia configurazioni errate comuni (disallow troppo ampi, sitemap mancanti, reindirizzamenti host incoerenti).
- Copia i risultati per ticket SEO e debug.
- Esporta un report JSON per audit, controlli di regressione e monitoraggio CI.
- Sicuro per impostazione predefinita: blocca target di rete privata e utilizza un User-Agent fisso.
🧭 Come usare for robots-txt-tester
Inserisci l'URL del sito
Incolla l'URL base del sito (ad esempio [https://example.com](https://example.com)). Lo strumento individuerà e leggerà il robots.txt per quel sito.
Scegli un User-Agent
Scegli * per simulare qualsiasi bot, o seleziona Googlebot / bingbot per valutare le loro regole di gruppo specifiche. Il comportamento di Robots.txt può differire per bot.
Imposta il percorso da testare
Inserisci il percorso che desideri convalidare (ad esempio /private/ o /products/widget). Questo viene valutato rispetto alle regole Allow/Disallow.
Mantieni "Segui Reindirizzamenti" abilitato (consigliato)
Se il tuo sito reindirizza da http a https o da non-www a www (o viceversa), seguire i reindirizzamenti garantisce di valutare il robots.txt dell'host corretto.
Rivedi il verdetto e le righe sitemap
Conferma se il percorso è consentito e controlla le direttive Sitemap estratte. Esporta JSON per conservare le prove per audit o monitoraggio.
Specifiche tecniche
Cosa valuta lo strumento
Il tester recupera il robots.txt del sito e applica le regole del gruppo User-Agent al percorso fornito. Può anche estrarre le direttive Sitemap per la convalida SEO.
| Input | Significato | Esempio |
|---|---|---|
| URL del sito | Il sito base da cui viene recuperato il robots.txt | [https://example.com](https://example.com) |
| User-Agent | Quali regole del gruppo di crawler valutare | Googlebot, bingbot, * |
| Percorso da testare | Il percorso verificato rispetto alle direttive Allow/Disallow | /private/ |
Comportamento e sicurezza delle richieste
Le richieste sono lato server con limiti di sicurezza e opzione di seguire i reindirizzamenti, importante per configurazioni di host/protocollo canonico.
| Impostazione | Comportamento | Predefinito |
|---|---|---|
| Segui Reindirizzamenti | Segue i reindirizzamenti verso l'host/protocollo finale prima della valutazione | Abilitato |
| Reindirizzamenti Massimi | Limite di reindirizzamenti quando il seguire è abilitato | 10 |
| Timeout | Limite di timeout della richiesta | 15000 ms |
| User-Agent (richieste) | Identifica l'user agent della richiesta dello strumento | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Reti private | Blocca i target di rete privata per sicurezza | Disabilitato (reti private non consentite) |
Interpretazione pratica delle regole robots.txt
Il robots.txt è una direttiva per i crawler (non un sistema di controllo degli accessi). Aiuta a prevenire la scansione, ma non garantisce la deindicizzazione e non protegge i dati sensibili.
Riga di comando
Puoi ispezionare rapidamente il robots.txt e confermare i reindirizzamenti usando curl.
macOS / Linux
Recupera robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Scarica il contenuto di robots.txt per l'ispezione manuale.
Segui i reindirizzamenti a robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Utile quando l'host o il protocollo reindirizza (http→https, non-www→www, ecc.).
Mostra le intestazioni per la richiesta di robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Controlla lo stato HTTP, le intestazioni di cache e se sono coinvolti reindirizzamenti.
Windows (PowerShell)
Recupera robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentStampa il contenuto di robots.txt.
Casi d'uso
Diagnosticare problemi di “Indicizzato, ma bloccato da robots.txt”
Conferma quale regola esatta blocca un percorso e per quale gruppo di bot.
- Trova un Disallow: / accidentale che blocca l'intero sito
- Verifica che le regole per Googlebot differiscano da quelle per *
Convalidare migrazioni e cambiamenti dell'host canonico
Assicurati che l'host canonico di produzione sia scansionabile e che robots.txt sia presente e corretto dopo i reindirizzamenti.
- I reindirizzamenti http→https consentono ancora la scoperta di robots.txt
- L'host canonico www/non-www fornisce le regole previste
Controllare le dichiarazioni della sitemap
Estrai le righe Sitemap: e assicurati che puntino agli URL della sitemap corretti e accessibili.
- Verifica che gli URL della sitemap utilizzino l'host canonico e https
- Rileva direttive Sitemap mancanti su siti di grandi dimensioni
Prevenire sprechi accidentali di scansione
Blocca percorsi veramente non importanti (amministrazione, ricerca interna, parametri) mantenendo scansionabili le sezioni di valore.
- Disallow per gli URL di ricerca interna
- Allow per percorsi importanti di paginazione/categoria
❓ Frequently Asked Questions
❓Robots.txt impedisce l'indicizzazione?
❓Robots.txt è una funzionalità di sicurezza?
❓Perché dovrei testare diversi User-Agent?
❓Perché “Segui Reindirizzamenti” è importante?
❓Qual è la configurazione predefinita più sicura?
❓Posso bloccare la scansione ma consentire comunque l'indicizzazione?
Pro Tips
Testa sempre robots.txt sull'host e protocollo canonici (https + la tua scelta www/non-www). Molti incidenti di "blocco" derivano dalla modifica del robots.txt dell'host sbagliato.
Non usare robots.txt per deindicizzare. Se hai bisogno di rimuovere, usa noindex (e consenti la scansione), oltre a rimuovere i link interni e aggiornare le sitemap.
Includi le direttive Sitemap: che puntano a URL di sitemap canoniche e accessibili (https, hostname corretto).
Durante le distribuzioni/migrazioni, aggiungi un controllo CI rapido che verifichi l'esistenza di robots.txt, restituisca 200 e non contenga Disallow: / per la produzione.
Evita di bloccare eccessivamente con pattern ampi. Bloccare risorse o sezioni chiave può danneggiare il rendering e la scoperta.
Additional Resources
Other Tools
- Abbellitore CSS
- Abbellitore HTML
- Abbellitore Javascript
- Abbellitore PHP
- Selettore Colori
- Estrattore Sprite
- Codificatore Binario Base32
- Decodificatore Base32
- Codificatore Base32
- Codificatore Binario Base58
- Decodificatore Base58
- Codificatore Base58
- Codificatore Binario Base62
- Decodificatore Base62
- Codificatore Base62
- Codificatore Binario Base64
- Decodificatore Base64
- Codificatore Base64
- Codificatore Binario Esadecimale
- Decodificatore Esadecimale
- Codificatore Esadecimale
- Formattatore Csharp
- Formattatore CSV
- Dockerfile Formatter
- Formattatore Elm
- Formattatore ENV
- Formattatore Go
- Formattatore GraphQL
- Formattatore HCL
- Formattatore INI
- Formattatore JSON
- Formattatore LaTeX
- Formattatore Markdown
- Formattatore Objective-C
- Php Formatter
- Formattatore Proto
- Formattatore Python
- Formattatore Ruby
- Formattatore Rust
- Formattatore Scala
- Formattatore Script Shell
- Formattatore SQL
- Formattatore SVG
- Formattatore Swift
- Formattatore TOML
- Typescript Formatter
- Formattatore XML
- Formattatore YAML
- Formattatore Yarn
- Minificatore CSS
- Html Minifier
- Javascript Minifier
- Minificatore JSON
- Minificatore XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Visualizzatore Intestazioni HTTP
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF a Testo
- Tester Regex
- Controllore Posizione SERP
- Ricerca Whois