تست‌کننده Robots.txt

بررسی کنید که آیا یک مسیر مشخص برای یک خزنده بر اساس قوانین robots.txt سایت مجاز است یا خیر. یک User-Agent انتخاب کنید (مثلاً Googlebot، bingbot یا *)، تغییر مسیرها را دنبال کنید تا به robots.txt نهایی برسید، دستورات Sitemap را استخراج کرده و نتایج را برای ممیزی‌ها و نظارت سئو به JSON صادر کنید.

Loading…

درباره تست کننده Robots.txt

Robots.txt دسترسی خزنده‌ها را در سطح سایت کنترل می‌کند. این ابزار robots.txt سایت را دریافت می‌کند، قوانین آن را برای User-Agent انتخاب شده اعمال کرده و به شما می‌گوید که آیا یک مسیر خاص باید مجاز یا مسدود شود. این ابزار برای تشخیص مشکلات ایندکس‌گذاری، اعتبارسنجی تغییرات مهاجرت و اطمینان از اینکه به طور تصادفی بخش‌های مهم را مسدود نکرده‌اید (یا بخش‌های خصوصی را در معرض دید قرار نداده‌اید) عالی است.

ویژگی‌ها

  • یک مسیر خاص را در برابر robots.txt برای یک User-Agent انتخاب شده (Googlebot، bingbot یا *) آزمایش کنید.
  • تغییر مسیرها را دنبال کنید تا قبل از ارزیابی قوانین به میزبان/پروتکل صحیح برسید.
  • دستورات Sitemap: موجود در robots.txt را استخراج و اعتبارسنجی کنید.
  • پیکربندی‌های اشتباه رایج را برجسته کنید (ممنوعیت‌های بیش از حد گسترده، sitemap‌های گمشده، تغییر مسیرهای ناسازگار میزبان).
  • نتایج را برای تیکت‌های سئو و اشکال‌زدایی کپی کنید.
  • یک گزارش JSON برای ممیزی‌ها، بررسی‌های بازگشتی و نظارت CI صادر کنید.
  • ایمن به طور پیش‌فرض: اهداف شبکه خصوصی را مسدود کرده و از یک User-Agent ثابت استفاده می‌کند.

🧭 نحوه استفاده for robots-txt-tester

1

آدرس سایت را وارد کنید

آدرس پایه سایت را جایگذاری کنید (مثلاً [https://example.com](https://example.com)). ابزار robots.txt آن سایت را پیدا کرده و می‌خواند.

2

یک User-Agent انتخاب کنید

* را برای شبیه‌سازی هر ربات انتخاب کنید، یا Googlebot / bingbot را برای ارزیابی قوانین گروه خاص آن‌ها انتخاب کنید. رفتار Robots.txt می‌تواند برای هر ربات متفاوت باشد.

3

مسیر مورد آزمایش را تنظیم کنید

مسیری که می‌خواهید اعتبارسنجی کنید را وارد کنید (مثلاً /private/ یا /products/widget). این مسیر در برابر قوانین Allow/Disallow ارزیابی می‌شود.

4

گزینه «دنبال کردن تغییر مسیرها» را فعال نگه دارید (توصیه می‌شود)

اگر سایت شما http→https یا non-www→www (یا برعکس) را تغییر مسیر می‌دهد، دنبال کردن تغییر مسیرها اطمینان می‌دهد که robots.txt میزبان صحیح را ارزیابی می‌کنید.

5

نتیجه و خطوط sitemap را مرور کنید

تأیید کنید که آیا مسیر مجاز است یا خیر، و دستورات Sitemap استخراج شده را بررسی کنید. JSON را صادر کنید تا شواهد را برای ممیزی‌ها یا نظارت نگه دارید.

مشخصات فنی

آنچه ابزار ارزیابی می‌کند

تست کننده robots.txt سایت را دریافت کرده و قوانین گروه User-Agent را بر روی مسیر ارائه شده اعمال می‌کند. همچنین می‌تواند دستورات Sitemap را برای اعتبارسنجی سئو استخراج کند.

ورودیمعنیمثال
آدرس سایتسایت پایه‌ای که robots.txt از آن دریافت می‌شود[https://example.com](https://example.com)
عامل کاربرکدام گروه از قوانین خزنده‌ها باید ارزیابی شوندGooglebot, bingbot, *
مسیر برای آزمایشمسیری که در برابر دستورالعمل‌های Allow/Disallow بررسی می‌شود/private/

رفتار و ایمنی درخواست

درخواست‌ها سمت سرور با محدودیت‌های ایمنی و امکان دنبال کردن تغییر مسیر اختیاری هستند، که برای تنظیمات میزبان/پروتکل متعارف مهم است.

تنظیمرفتارپیش‌فرض
دنبال کردن تغییر مسیرهاقبل از ارزیابی، تغییر مسیرها را تا میزبان/پروتکل نهایی دنبال می‌کندفعال
حداکثر تغییر مسیرهاسقف تغییر مسیر هنگام فعال بودن دنبال کردن10
مهلت زمانیمحدودیت مهلت زمانی درخواست15000 میلی‌ثانیه
عامل کاربر (درخواست‌ها)عامل کاربر درخواست ابزار را شناسایی می‌کندEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
شبکه‌های خصوصیبرای ایمنی، اهداف شبکه خصوصی را مسدود می‌کندغیرفعال (شبکه‌های خصوصی مجاز نیستند)

تفسیر عملی قوانین robots.txt

Robots.txt یک دستورالعمل برای خزنده‌ها است (نه یک سیستم کنترل دسترسی). این به جلوگیری از خزش کمک می‌کند، اما حذف از فهرست را تضمین نمی‌کند و از داده‌های حساس محافظت نمی‌کند.

اگر نیاز به محافظت از محتوای خصوصی دارید، از احراز هویت و مجوز مناسب استفاده کنید. برای حذف از فهرست، به هدرها/متا تگ‌های noindex تکیه کنید و لینک‌های عمومی را حذف کنید — robots.txt به تنهایی ابزار حذف نیست.

خط فرمان

می‌توانید به سرعت robots.txt را بررسی و تغییر مسیرها را با استفاده از curl تأیید کنید.

macOS / Linux

دریافت robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

محتوای robots.txt را برای بررسی دستی دانلود می‌کند.

دنبال کردن تغییر مسیرها به robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

زمانی مفید است که میزبان یا پروتکل تغییر مسیر می‌دهد (http→https، غیر-www→www و غیره).

نمایش هدرهای درخواست robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

وضعیت HTTP، هدرهای کش و اینکه آیا تغییر مسیر دخیل هستند را بررسی می‌کند.

ویندوز (PowerShell)

دریافت robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

محتوای robots.txt را چاپ می‌کند.

در طول مهاجرت‌ها، robots.txt را روی هر میزبان متعارف و نوع پروتکل (http/https + www/غیر-www) تأیید کنید تا از مسدود شدن تصادفی خزش روی میزبان متعارف تولید جلوگیری شود.

موارد استفاده

تشخیص مشکلات «ایندکس شده، اما توسط robots.txt مسدود شده»

تأیید کنید که کدام قانون دقیقاً یک مسیر را مسدود می‌کند و برای کدام گروه ربات.

  • پیدا کردن Disallow: / تصادفی که کل سایت را مسدود می‌کند
  • تأیید اینکه قوانین Googlebot با قوانین * متفاوت است

اعتبارسنجی تغییرات مهاجرت و میزبان متعارف

اطمینان حاصل کنید که میزبان متعارف تولید قابل خزش است و robots.txt پس از تغییر مسیرها موجود و صحیح است.

  • تغییر مسیرهای http→https همچنان امکان کشف robots.txt را فراهم می‌کنند
  • میزبان متعارف www/غیر-www قوانین مورد نظر را ارائه می‌دهد

بررسی اعلام‌های نقشه سایت

خطوط Sitemap: را استخراج کنید و مطمئن شوید که به URLهای نقشه سایت صحیح و قابل دسترسی اشاره می‌کنند.

  • تأیید کنید که URLهای نقشه سایت از میزبان متعارف و https استفاده می‌کنند
  • تشخیص دستورات Sitemap مفقود شده در سایت‌های بزرگ

جلوگیری از اتلاف تصادفی خزش

مسیرهای واقعاً بی‌اهمیت (مدیر، جستجوی داخلی، پارامترها) را مسدود کنید در حالی که بخش‌های ارزشمند قابل خزش باقی می‌مانند.

  • مسدود کردن URLهای جستجوی داخلی
  • اجازه دادن به مسیرهای صفحه‌بندی شده/دسته‌بندی مهم

❓ Frequently Asked Questions

آیا robots.txt از ایندکس شدن جلوگیری می‌کند؟

به طور قابل اعتماد نه. Robots.txt خزش را کنترل می‌کند، نه ایندکس شدن. یک URL حتی اگر از خزش مسدود شده باشد، در صورت وجود لینک از صفحات دیگر یا شناخته شده بودن، همچنان می‌تواند ایندکس شده ظاهر شود. برای استراتژی‌های حذف ایندکس از noindex استفاده کنید.

آیا robots.txt یک ویژگی امنیتی است؟

خیر. این یک فایل عمومی است و فقط یک دستورالعمل برای خزنده‌های سازگار است. هرگز از robots.txt برای محافظت از صفحات حساس استفاده نکنید — در عوض از احراز هویت و مجوز استفاده کنید.

چرا باید User-Agentهای مختلف را آزمایش کنم؟

Robots.txt می‌تواند گروه‌های قانون مختلفی برای هر User-Agent تعریف کند. یک مسیر ممکن است برای یک خزنده مجاز و برای دیگری مسدود باشد، بسته به پیکربندی شما.

چرا «دنبال کردن تغییر مسیرها» مهم است؟

زیرا robots.txt خاص میزبان است. اگر سایت شما به یک میزبان/پروتکل متعارف تغییر مسیر می‌دهد، دنبال کردن تغییر مسیرها تضمین می‌کند که قوانین robots.txt مقصد نهایی را ارزیابی می‌کنید.

امن‌ترین پیکربندی پیش‌فرض چیست؟

محتواهای حیاتی را قابل خزش نگه دارید، تنها آدرس‌های اینترنتی واقعاً بی‌فایده را مسدود کنید و همیشه یک نقشه سایت (یا چندین نقشه سایت) روی میزبان کانونی https منتشر کنید. از الگوهای گسترده Disallow خودداری کنید مگر اینکه مطمئن باشید.

آیا می‌توانم خزش را مسدود کنم اما همچنان نمایه‌سازی را مجاز کنم؟

اگر خزش را از طریق robots.txt مسدود کنید اما آدرس اینترنتی به صورت خارجی پیوند داده شده باشد، موتورهای جستجو ممکن است همچنان آدرس اینترنتی را بدون خزش محتوای آن نمایه‌سازی کنند. اگر نیاز به حذف از نمایه دارید، از noindex استفاده کنید (و خزش را مجاز کنید تا ربات‌ها بتوانند آن را ببینند).

Pro Tips

Best Practice

همیشه robots.txt را روی میزبان و پروتکل کانونی (https + www/non-www انتخابی شما) آزمایش کنید. بسیاری از حوادث «مسدود شده» ناشی از ویرایش robots.txt میزبان اشتباه است.

Best Practice

از robots.txt برای حذف از نمایه استفاده نکنید. اگر نیاز به حذف دارید، از noindex استفاده کنید (و خزش را مجاز کنید)، به علاوه پیوندهای داخلی را حذف کرده و نقشه‌های سایت را به‌روز کنید.

CI Tip

دستورالعمل‌های Sitemap: را شامل شوید که به آدرس‌های اینترنتی نقشه سایت کانونی و قابل دسترسی (https، نام میزبان صحیح) اشاره می‌کنند.

CI Tip

در طول استقرارها/مهاجرت‌ها، یک بررسی سریع CI اضافه کنید که وجود robots.txt، بازگشت کد 200 و عدم وجود Disallow: / برای محیط تولید را تأیید می‌کند.

Best Practice

از مسدودسازی بیش از حد با الگوهای گسترده خودداری کنید. مسدود کردن منابع یا بخش‌های کلیدی می‌تواند به رندر و کشف آسیب برساند.

Additional Resources

Other Tools

تست کننده Robots.txt — آزمایش قوانین Allow/Disallow و دستورات sitemap | Encode64