Penguji Robots.txt
Uji apakah jalur tertentu diizinkan untuk crawler sesuai aturan robots.txt suatu situs. Pilih User-Agent (misalnya, Googlebot, bingbot, atau *), ikuti pengalihan untuk mencapai robots.txt akhir, ekstrak direktif Sitemap, dan ekspor hasil ke JSON untuk audit dan pemantauan SEO.
Fitur
- Uji jalur tertentu terhadap robots.txt untuk User-Agent yang dipilih (Googlebot, bingbot, atau *).
- Ikuti pengalihan untuk mencapai host/protokol yang benar sebelum mengevaluasi aturan.
- Ekstrak dan validasi direktif Sitemap: yang ditemukan di robots.txt.
- Sorot kesalahan konfigurasi umum (larangan terlalu luas, sitemap yang hilang, pengalihan host yang tidak konsisten).
- Salin hasil untuk tiket SEO dan debugging.
- Ekspor laporan JSON untuk audit, pemeriksaan regresi, dan pemantauan CI.
- Aman secara default: memblokir target jaringan pribadi dan menggunakan User-Agent tetap.
🧭 Cara menggunakan for robots-txt-tester
Masukkan URL situs
Tempel URL dasar situs (misalnya [https://example.com](https://example.com)). Alat akan menemukan dan membaca robots.txt untuk situs tersebut.
Pilih User-Agent
Pilih * untuk mensimulasikan bot apa pun, atau pilih Googlebot / bingbot untuk mengevaluasi aturan grup spesifik mereka. Perilaku Robots.txt dapat berbeda per bot.
Atur jalur untuk diuji
Masukkan jalur yang ingin Anda validasi (misalnya /private/ atau /products/widget). Ini dievaluasi terhadap aturan Allow/Disallow.
Biarkan "Ikuti Pengalihan" diaktifkan (disarankan)
Jika situs Anda mengalihkan http→https atau non-www→www (atau sebaliknya), mengikuti pengalihan memastikan Anda mengevaluasi robots.txt host yang benar.
Tinjau keputusan dan baris sitemap
Konfirmasi apakah jalur diizinkan, dan periksa direktif Sitemap yang diekstrak. Ekspor JSON untuk menyimpan bukti untuk audit atau pemantauan.
Spesifikasi teknis
Apa yang dievaluasi alat
Penguji mengambil robots.txt situs dan menerapkan aturan grup User-Agent ke jalur yang diberikan. Ini juga dapat mengekstrak direktif Sitemap untuk validasi SEO.
| Input | Arti | Contoh |
|---|---|---|
| URL Situs | Situs dasar tempat robots.txt diambil | [https://example.com](https://example.com) |
| User-Agent | Kelompok crawler mana yang aturannya akan dievaluasi | Googlebot, bingbot, * |
| Jalur untuk diuji | Jalur yang diperiksa terhadap arahan Allow/Disallow | /private/ |
Perilaku dan keamanan permintaan
Permintaan dilakukan di sisi server dengan batas keamanan dan opsi untuk mengikuti pengalihan, yang penting untuk pengaturan host/protokol kanonik.
| Pengaturan | Perilaku | Default |
|---|---|---|
| Ikuti Pengalihan | Mengikuti pengalihan ke host/protokol akhir sebelum evaluasi | Diaktifkan |
| Maks. Pengalihan | Batas pengalihan saat mengikuti diaktifkan | 10 |
| Batas Waktu | Batas waktu habis permintaan | 15000 ms |
| User-Agent (permintaan) | Mengidentifikasi user agent permintaan alat | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| Jaringan pribadi | Memblokir target jaringan pribadi untuk keamanan | Dinonaktifkan (jaringan pribadi tidak diizinkan) |
Interpretasi praktis aturan robots.txt
Robots.txt adalah arahan untuk crawler (bukan sistem kontrol akses). Ini membantu mencegah perayapan, tetapi tidak menjamin penghapusan dari indeks dan tidak melindungi data sensitif.
Baris perintah
Anda dapat dengan cepat memeriksa robots.txt dan mengonfirmasi pengalihan menggunakan curl.
macOS / Linux
Ambil robots.txt
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)Mengunduh konten robots.txt untuk pemeriksaan manual.
Ikuti pengalihan ke robots.txt
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)Berguna ketika host atau protokol mengalihkan (http→https, non-www→www, dll.).
Tampilkan header untuk permintaan robots.txt
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)Memeriksa status HTTP, header caching, dan apakah ada pengalihan yang terlibat.
Windows (PowerShell)
Ambil robots.txt
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty ContentMencetak konten robots.txt.
Kasus penggunaan
Diagnosis masalah “Terdiindeks, tetapi diblokir oleh robots.txt”
Konfirmasi aturan mana yang memblokir suatu jalur dan untuk grup bot mana.
- Temukan Disallow: / yang tidak sengaja memblokir seluruh situs
- Verifikasi aturan Googlebot berbeda dari aturan *
Validasi perubahan migrasi dan host kanonis
Pastikan host kanonis produksi dapat dirayapi dan robots.txt hadir serta benar setelah pengalihan.
- Pengalihan http→https masih memungkinkan penemuan robots.txt
- Host kanonis www/non-www menyajikan aturan yang dimaksud
Periksa deklarasi peta situs
Ekstrak baris Sitemap: dan pastikan mengarah ke URL peta situs yang benar dan dapat diakses.
- Verifikasi URL peta situs menggunakan host kanonis dan https
- Deteksi arahan Sitemap yang hilang di situs besar
Cegah pemborosan perayapan yang tidak disengaja
Blokir jalur yang benar-benar tidak penting (admin, pencarian internal, parameter) sambil menjaga bagian berharga tetap dapat dirayapi.
- Larang URL pencarian internal
- Izinkan jalur paginasi/kategori yang penting
❓ Frequently Asked Questions
❓Apakah robots.txt mencegah pengindeksan?
❓Apakah robots.txt adalah fitur keamanan?
❓Mengapa saya harus menguji User-Agent yang berbeda?
❓Mengapa “Ikuti Pengalihan” penting?
❓Apa konfigurasi default yang paling aman?
❓Bisakah saya memblokir perayapan tetapi tetap mengizinkan pengindeksan?
Pro Tips
Selalu uji robots.txt pada host dan protokol kanonik (https + pilihan www/non-www Anda). Banyak insiden 'terblokir' berasal dari mengedit robots.txt host yang salah.
Jangan gunakan robots.txt untuk menghapus indeks. Jika Anda perlu penghapusan, gunakan noindex (dan izinkan perayapan), plus hapus tautan internal dan perbarui peta situs.
Sertakan direktif Sitemap: yang mengarah ke URL peta situs kanonik yang dapat diakses (https, nama host yang benar).
Selama penerapan/migrasi, tambahkan pemeriksaan CI cepat yang memverifikasi robots.txt ada, mengembalikan 200, dan tidak mengandung Disallow: / untuk produksi.
Hindari pemblokiran berlebihan dengan pola luas. Memblokir sumber daya atau bagian penting dapat merusak rendering dan penemuan.
Additional Resources
Other Tools
- Pemerindah CSS
- Pemerindah HTML
- Pemerindah Javascript
- Pemerindah PHP
- Pemilih Warna
- Ekstraktor Sprite
- Pengkode Biner Base32
- Dekoder Base32
- Pengkode Base32
- Pengkode Biner Base58
- Dekoder Base58
- Pengkode Base58
- Pengkode Biner Base62
- Dekoder Base62
- Pengkode Base62
- Pengkode Biner Base64
- Dekoder Base64
- Encoder Base64
- Pengkode Biner Heksadesimal
- Dekoder Heksadesimal
- Pengkode Heksadesimal
- Pemformat Csharp
- Pemformat CSV
- Dockerfile Formatter
- Pemformat Elm
- Pemformat ENV
- Pemformat Go
- Pemformat GraphQL
- Pemformat HCL
- Pemformat INI
- Pemformat JSON
- Pemformat Latex
- Pemformat Markdown
- Pemformat ObjectiveC
- Php Formatter
- Pemformat Proto
- Pemformat Python
- Pemformat Ruby
- Pemformat Rust
- Pemformat Scala
- Pemformat Skrip Shell
- Pemformat SQL
- Pemformat SVG
- Pemformat Swift
- Pemformat TOML
- Typescript Formatter
- Pemformat XML
- Pemformat YAML
- Pemformat Yarn
- Pengecil CSS
- Html Minifier
- Javascript Minifier
- Pengecil JSON
- Pengecil XML
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- Penampil Header HTTP
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- PDF Ke Teks
- Penguji Regex
- Pemeriksa Peringkat SERP
- Pencarian Whois