Penguji Robots.txt

Uji apakah jalur tertentu diizinkan untuk crawler sesuai aturan robots.txt suatu situs. Pilih User-Agent (misalnya, Googlebot, bingbot, atau *), ikuti pengalihan untuk mencapai robots.txt akhir, ekstrak direktif Sitemap, dan ekspor hasil ke JSON untuk audit dan pemantauan SEO.

Loading…

Tentang Penguji Robots.txt

Robots.txt mengontrol akses crawler di tingkat situs. Alat ini mengambil robots.txt situs, menerapkan aturannya untuk User-Agent yang dipilih, dan memberi tahu Anda apakah jalur tertentu harus diizinkan atau diblokir. Sangat cocok untuk mendiagnosis masalah pengindeksan, memvalidasi perubahan migrasi, dan memastikan Anda tidak secara tidak sengaja memblokir bagian penting (atau mengekspos bagian pribadi).

Fitur

  • Uji jalur tertentu terhadap robots.txt untuk User-Agent yang dipilih (Googlebot, bingbot, atau *).
  • Ikuti pengalihan untuk mencapai host/protokol yang benar sebelum mengevaluasi aturan.
  • Ekstrak dan validasi direktif Sitemap: yang ditemukan di robots.txt.
  • Sorot kesalahan konfigurasi umum (larangan terlalu luas, sitemap yang hilang, pengalihan host yang tidak konsisten).
  • Salin hasil untuk tiket SEO dan debugging.
  • Ekspor laporan JSON untuk audit, pemeriksaan regresi, dan pemantauan CI.
  • Aman secara default: memblokir target jaringan pribadi dan menggunakan User-Agent tetap.

🧭 Cara menggunakan for robots-txt-tester

1

Masukkan URL situs

Tempel URL dasar situs (misalnya [https://example.com](https://example.com)). Alat akan menemukan dan membaca robots.txt untuk situs tersebut.

2

Pilih User-Agent

Pilih * untuk mensimulasikan bot apa pun, atau pilih Googlebot / bingbot untuk mengevaluasi aturan grup spesifik mereka. Perilaku Robots.txt dapat berbeda per bot.

3

Atur jalur untuk diuji

Masukkan jalur yang ingin Anda validasi (misalnya /private/ atau /products/widget). Ini dievaluasi terhadap aturan Allow/Disallow.

4

Biarkan "Ikuti Pengalihan" diaktifkan (disarankan)

Jika situs Anda mengalihkan http→https atau non-www→www (atau sebaliknya), mengikuti pengalihan memastikan Anda mengevaluasi robots.txt host yang benar.

5

Tinjau keputusan dan baris sitemap

Konfirmasi apakah jalur diizinkan, dan periksa direktif Sitemap yang diekstrak. Ekspor JSON untuk menyimpan bukti untuk audit atau pemantauan.

Spesifikasi teknis

Apa yang dievaluasi alat

Penguji mengambil robots.txt situs dan menerapkan aturan grup User-Agent ke jalur yang diberikan. Ini juga dapat mengekstrak direktif Sitemap untuk validasi SEO.

InputArtiContoh
URL SitusSitus dasar tempat robots.txt diambil[https://example.com](https://example.com)
User-AgentKelompok crawler mana yang aturannya akan dievaluasiGooglebot, bingbot, *
Jalur untuk diujiJalur yang diperiksa terhadap arahan Allow/Disallow/private/

Perilaku dan keamanan permintaan

Permintaan dilakukan di sisi server dengan batas keamanan dan opsi untuk mengikuti pengalihan, yang penting untuk pengaturan host/protokol kanonik.

PengaturanPerilakuDefault
Ikuti PengalihanMengikuti pengalihan ke host/protokol akhir sebelum evaluasiDiaktifkan
Maks. PengalihanBatas pengalihan saat mengikuti diaktifkan10
Batas WaktuBatas waktu habis permintaan15000 ms
User-Agent (permintaan)Mengidentifikasi user agent permintaan alatEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
Jaringan pribadiMemblokir target jaringan pribadi untuk keamananDinonaktifkan (jaringan pribadi tidak diizinkan)

Interpretasi praktis aturan robots.txt

Robots.txt adalah arahan untuk crawler (bukan sistem kontrol akses). Ini membantu mencegah perayapan, tetapi tidak menjamin penghapusan dari indeks dan tidak melindungi data sensitif.

Jika Anda perlu melindungi konten pribadi, gunakan autentikasi dan otorisasi yang tepat. Untuk penghapusan dari indeks, andalkan header/meta noindex dan hapus tautan publik—robots.txt saja bukan alat penghapusan.

Baris perintah

Anda dapat dengan cepat memeriksa robots.txt dan mengonfirmasi pengalihan menggunakan curl.

macOS / Linux

Ambil robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

Mengunduh konten robots.txt untuk pemeriksaan manual.

Ikuti pengalihan ke robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

Berguna ketika host atau protokol mengalihkan (http→https, non-www→www, dll.).

Tampilkan header untuk permintaan robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

Memeriksa status HTTP, header caching, dan apakah ada pengalihan yang terlibat.

Windows (PowerShell)

Ambil robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

Mencetak konten robots.txt.

Selama migrasi, verifikasi robots.txt di setiap host kanonis dan varian protokol (http/https + www/non-www) untuk menghindari pemblokiran perayapan yang tidak disengaja pada host kanonis produksi.

Kasus penggunaan

Diagnosis masalah “Terdiindeks, tetapi diblokir oleh robots.txt”

Konfirmasi aturan mana yang memblokir suatu jalur dan untuk grup bot mana.

  • Temukan Disallow: / yang tidak sengaja memblokir seluruh situs
  • Verifikasi aturan Googlebot berbeda dari aturan *

Validasi perubahan migrasi dan host kanonis

Pastikan host kanonis produksi dapat dirayapi dan robots.txt hadir serta benar setelah pengalihan.

  • Pengalihan http→https masih memungkinkan penemuan robots.txt
  • Host kanonis www/non-www menyajikan aturan yang dimaksud

Periksa deklarasi peta situs

Ekstrak baris Sitemap: dan pastikan mengarah ke URL peta situs yang benar dan dapat diakses.

  • Verifikasi URL peta situs menggunakan host kanonis dan https
  • Deteksi arahan Sitemap yang hilang di situs besar

Cegah pemborosan perayapan yang tidak disengaja

Blokir jalur yang benar-benar tidak penting (admin, pencarian internal, parameter) sambil menjaga bagian berharga tetap dapat dirayapi.

  • Larang URL pencarian internal
  • Izinkan jalur paginasi/kategori yang penting

❓ Frequently Asked Questions

Apakah robots.txt mencegah pengindeksan?

Tidak dapat diandalkan. Robots.txt mengontrol perayapan, bukan pengindeksan. URL masih dapat muncul terindeks jika halaman lain menautkannya atau sudah diketahui, meskipun diblokir dari perayapan. Gunakan noindex untuk strategi penghapusan indeks.

Apakah robots.txt adalah fitur keamanan?

Bukan. Ini adalah file publik dan hanya arahan untuk crawler yang patuh. Jangan pernah menggunakan robots.txt untuk melindungi halaman sensitif—gunakan autentikasi dan otorisasi sebagai gantinya.

Mengapa saya harus menguji User-Agent yang berbeda?

Robots.txt dapat mendefinisikan grup aturan berbeda per User-Agent. Suatu jalur mungkin diizinkan untuk satu crawler dan diblokir untuk yang lain, tergantung pada konfigurasi Anda.

Mengapa “Ikuti Pengalihan” penting?

Karena robots.txt spesifik host. Jika situs Anda mengalihkan ke host/protokol kanonis, mengikuti pengalihan memastikan Anda mengevaluasi aturan robots.txt tujuan akhir.

Apa konfigurasi default yang paling aman?

Jaga konten penting tetap dapat dirayapi, blokir hanya URL yang benar-benar tidak membantu, dan selalu terbitkan peta situs (atau beberapa peta situs) pada host https kanonik. Hindari pola Disallow yang luas kecuali Anda yakin.

Bisakah saya memblokir perayapan tetapi tetap mengizinkan pengindeksan?

Jika Anda memblokir perayapan melalui robots.txt tetapi URL tertaut secara eksternal, mesin pencari mungkin masih mengindeks URL tanpa merayap kontennya. Jika Anda perlu menghapus indeks, gunakan noindex (dan izinkan perayapan agar bot dapat melihatnya).

Pro Tips

Best Practice

Selalu uji robots.txt pada host dan protokol kanonik (https + pilihan www/non-www Anda). Banyak insiden 'terblokir' berasal dari mengedit robots.txt host yang salah.

Best Practice

Jangan gunakan robots.txt untuk menghapus indeks. Jika Anda perlu penghapusan, gunakan noindex (dan izinkan perayapan), plus hapus tautan internal dan perbarui peta situs.

CI Tip

Sertakan direktif Sitemap: yang mengarah ke URL peta situs kanonik yang dapat diakses (https, nama host yang benar).

CI Tip

Selama penerapan/migrasi, tambahkan pemeriksaan CI cepat yang memverifikasi robots.txt ada, mengembalikan 200, dan tidak mengandung Disallow: / untuk produksi.

Best Practice

Hindari pemblokiran berlebihan dengan pola luas. Memblokir sumber daya atau bagian penting dapat merusak rendering dan penemuan.

Additional Resources

Other Tools