Robots.txt テスター

サイトの robots.txt ルールに基づき、指定されたパスがクローラーに許可されているかテストします。ユーザーエージェント(例:Googlebot、bingbot、または *)を選択し、リダイレクトを追跡して最終的な robots.txt を取得、サイトマップディレクティブを抽出し、結果を JSON 形式でエクスポートして SEO 監査やモニタリングに活用できます。

Loading…

概要 Robots.txt テスター

Robots.txt はサイトレベルでのクローラーアクセスを制御します。このツールはサイトの robots.txt を取得し、選択したユーザーエージェント向けのルールを適用して、特定のパスが許可されるかブロックされるかを判断します。インデックス問題の診断、移行変更の検証、重要なセクションを誤ってブロックしていないか(または非公開セクションを公開していないか)を確認するのに最適です。

機能

  • 選択したユーザーエージェント(Googlebot、bingbot、または *)に対して、特定のパスを robots.txt でテストします。
  • ルール評価前にリダイレクトを追跡し、正しいホスト/プロトコルに到達します。
  • robots.txt 内の Sitemap: ディレクティブを抽出・検証します。
  • 一般的な設定ミス(過度な disallow、サイトマップの欠落、ホストリダイレクトの不一致)をハイライトします。
  • SEO チケットやデバッグ用に結果をコピーします。
  • 監査、回帰チェック、CI モニタリング用に JSON レポートをエクスポートします。
  • デフォルトで安全:プライベートネットワークターゲットをブロックし、固定のユーザーエージェントを使用します。

🧭 使い方 for robots-txt-tester

1

サイト URL を入力

サイトのベース URL(例:[https://example.com](https://example.com))を貼り付けます。ツールはそのサイトの robots.txt を探して読み込みます。

2

ユーザーエージェントを選択

任意のボットをシミュレートするには * を選択するか、Googlebot / bingbot を選択して特定のグループルールを評価します。Robots.txt の動作はボットごとに異なる場合があります。

3

テストするパスを設定

検証したいパス(例:/private/ または /products/widget)を入力します。これは Allow/Disallow ルールに対して評価されます。

4

「リダイレクトを追跡」を有効のままにする(推奨)

サイトが http→https または non-www→www(またはその逆)にリダイレクトする場合、リダイレクトを追跡することで正しいホストの robots.txt を評価できます。

5

判定結果とサイトマップ行を確認

パスが許可されているか確認し、抽出されたサイトマップディレクティブをチェックします。監査やモニタリングの証拠として JSON をエクスポートします。

技術仕様

ツールが評価する内容

テスターはサイトの robots.txt を取得し、ユーザーエージェントグループルールを指定されたパスに適用します。また、SEO 検証用にサイトマップディレクティブを抽出することもできます。

入力意味
サイトURLrobots.txtを取得するベースサイト[https://example.com](https://example.com)
ユーザーエージェント評価するクローラグループのルールGooglebot、bingbot、*
テストするパスAllow/Disallowディレクティブに対してチェックされるパス/private/

リクエストの動作と安全性

リクエストはサーバーサイドで行われ、安全制限とオプションのリダイレクト追従があります。これは正規ホスト/プロトコル設定において重要です。

設定動作デフォルト
リダイレクトを追従評価前に最終ホスト/プロトコルへのリダイレクトを追従します有効
最大リダイレクト数追従が有効な場合のリダイレクト上限10
タイムアウトリクエストのタイムアウト制限15000 ms
ユーザーエージェント(リクエスト)ツールリクエストのユーザーエージェントを識別しますEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
プライベートネットワーク安全性のためプライベートネットワークターゲットをブロックします無効(プライベートネットワークは許可されません)

実践的なrobots.txtルールの解釈

Robots.txtはクローラへの指示(アクセス制御システムではありません)です。クロールを防ぐのに役立ちますが、インデックス削除を保証するものではなく、機密データを保護するものでもありません。

非公開コンテンツを保護する必要がある場合は、認証と適切な認可を使用してください。インデックス削除については、noindexヘッダー/メタを頼りにし、公開リンクを削除してください。robots.txtだけでは削除ツールにはなりません。

コマンドライン

curlを使用してrobots.txtを素早く検査し、リダイレクトを確認できます。

macOS / Linux

robots.txtを取得

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

手動検査のためにrobots.txtの内容をダウンロードします。

robots.txtへのリダイレクトを追従

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

ホストやプロトコルがリダイレクトする場合(http→https、非www→wwwなど)に便利です。

robots.txtリクエストのヘッダーを表示

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

HTTPステータス、キャッシュヘッダー、リダイレクトの有無を確認します。

Windows (PowerShell)

robots.txtを取得

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

robots.txtの内容を表示します。

移行時には、正規ホストとプロトコル変種(http/https + www/非www)ごとにrobots.txtを確認し、本番の正規ホストでのクロールを誤ってブロックしないようにしましょう。

ユースケース

「インデックス済みだが、robots.txtでブロックされています」問題の診断

どのルールがどのパスを、どのボットグループに対してブロックしているかを確認します。

  • サイト全体をブロックする誤ったDisallow: /を発見
  • Googlebotのルールが*のルールと異なることを確認

移行と正規ホスト変更の検証

リダイレクト後も、本番の正規ホストがクロール可能で、robots.txtが存在し正しいことを確認します。

  • http→httpsリダイレクト後もrobots.txtが発見可能
  • www/非wwwの正規ホストが意図したルールを提供

サイトマップ宣言の確認

Sitemap:行を抽出し、正しいアクセス可能なサイトマップURLを指していることを確認します。

  • サイトマップURLが正規ホストとhttpsを使用していることを確認
  • 大規模サイトでのSitemapディレクティブの欠落を検出

誤ったクロールの浪費を防止

価値のあるセクションはクロール可能に保ちつつ、本当に重要でないパス(管理画面、内部検索、パラメータ)をブロックします。

  • 内部検索URLをDisallow
  • 重要なページネーション/カテゴリパスをAllow

❓ Frequently Asked Questions

robots.txtはインデックス登録を防ぎますか?

確実には防ぎません。robots.txtはクロールを制御するもので、インデックス登録を制御するものではありません。ブロックされていても、他のページからリンクされているか既知であれば、URLはインデックスに表示される可能性があります。インデックス登録解除の戦略にはnoindexを使用してください。

robots.txtはセキュリティ機能ですか?

いいえ。それは公開ファイルであり、準拠するクローラーへの指示に過ぎません。機密ページの保護にrobots.txtを使用することは絶対に避け、代わりに認証と認可を使用してください。

なぜ異なるUser-Agentをテストすべきですか?

robots.txtはUser-Agentごとに異なるルールグループを定義できます。設定によっては、あるクローラーには許可され、別のクローラーにはブロックされるパスがあるかもしれません。

「リダイレクトをフォロー」が重要なのはなぜですか?

robots.txtはホスト固有のためです。サイトが正規ホスト/プロトコルにリダイレクトする場合、リダイレクトをフォローすることで最終目的地のrobots.txtルールを評価できます。

最も安全なデフォルト設定は何ですか?

重要なコンテンツはクロール可能に保ち、本当に役に立たないURLのみをブロックし、常に正規のhttpsホスト上でサイトマップ(または複数のサイトマップ)を公開してください。確信がない限り、広範なDisallowパターンは避けてください。

クロールをブロックしながらインデックス登録は許可できますか?

robots.txtでクロールをブロックしても、URLが外部からリンクされている場合、検索エンジンはコンテンツをクロールせずにURLをインデックスに登録する可能性があります。インデックスからの削除が必要な場合は、noindexを使用してください(そしてボットがそれを確認できるようクロールは許可します)。

Pro Tips

Best Practice

robots.txtは常に正規のホストとプロトコル(https + 選択したwww/非www)でテストしてください。多くの「ブロックされた」インシデントは、誤ったホストのrobots.txtを編集したことに起因します。

Best Practice

インデックス削除にrobots.txtを使用しないでください。削除が必要な場合は、noindexを使用し(クロールは許可)、内部リンクを削除し、サイトマップを更新してください。

Best Practice

Sitemap: ディレクティブには、正規でアクセス可能なサイトマップURL(https、正しいホスト名)を指定してください。

Best Practice

デプロイや移行中は、robots.txtが存在し、200を返し、本番環境でDisallow: /を含まないことを確認する簡単なCIチェックを追加してください。

Best Practice

広範なパターンによる過剰なブロックは避けてください。リソースや重要なセクションをブロックすると、レンダリングや発見性が損なわれる可能性があります。

Additional Resources

Other Tools

Robots.txt テスター — Allow/Disallow ルールとサイトマップディレクティブをテスト | Encode64