مختبر ملف robots.txt

اختبر ما إذا كان مسار معين مسموحًا به لمحرك الزحف وفقًا لقواعد robots.txt للموقع. اختر وكيل مستخدم (مثل Googlebot أو bingbot أو *)، اتبع إعادة التوجيه للوصول إلى ملف robots.txt النهائي، استخرج توجيهات خريطة الموقع، وقم بتصدير النتائج إلى JSON لعمليات تدقيق وتحسين محركات البحث والمراقبة.

Loading…

حول أداة اختبار Robots.txt

يتحكم ملف robots.txt في وصول محركات الزحف على مستوى الموقع. تجلب هذه الأداة ملف robots.txt للموقع، وتطبق قواعده لوكيل مستخدم محدد، وتخبرك ما إذا كان مسار معين يجب السماح به أو حظره. إنها مثالية لتشخيص مشكلات الفهرسة، والتحقق من صحة تغييرات الهجرة، والتأكد من أنك لم تحظر أقسامًا مهمة عن طريق الخطأ (أو تعرض أقسامًا خاصة).

الميزات

  • اختبر مسارًا محددًا مقابل ملف robots.txt لوكيل مستخدم محدد (Googlebot أو bingbot أو *).
  • اتبع إعادة التوجيه للوصول إلى المضيف/البروتوكول الصحيح قبل تقييم القواعد.
  • استخرج وتحقق من صحة توجيهات Sitemap: الموجودة في robots.txt.
  • سلط الضوء على حالات التكوين الخاطئة الشائعة (عمليات المنع الواسعة جدًا، خرائط المواقع المفقودة، إعادة توجيه المضيف غير المتسقة).
  • انسخ النتائج لتذاكر تحسين محركات البحث والتشخيص.
  • قم بتصدير تقرير JSON لعمليات التدقيق، والتحقق من التراجع، ومراقبة التكامل المستمر.
  • آمن افتراضيًا: يحظر الأهداف على الشبكة الخاصة ويستخدم وكيل مستخدم ثابت.

🧭 كيفية الاستخدام for robots-txt-tester

1

أدخل عنوان URL للموقع

الصق عنوان URL الأساسي للموقع (على سبيل المثال [https://example.com](https://example.com)). ستحدد الأداة وتقرأ ملف robots.txt لذلك الموقع.

2

اختر وكيل مستخدم

اختر * لمحاكاة أي بوت، أو اختر Googlebot / bingbot لتقييم قواعد مجموعتهم المحددة. قد يختلف سلوك robots.txt حسب البوت.

3

حدد المسار للاختبار

أدخل المسار الذي تريد التحقق منه (على سبيل المثال /private/ أو /products/widget). يتم تقييم هذا مقابل قواعد السماح/المنع.

4

اترك خيار "متابعة إعادة التوجيه" مفعلاً (موصى به)

إذا كان موقعك يعيد توجيه http→https أو non-www→www (أو العكس)، فإن متابعة إعادة التوجيه تضمن تقييم ملف robots.txt للمضيف الصحيح.

5

راجع الحكم وسطور خريطة الموقع

تأكد مما إذا كان المسار مسموحًا به، وتحقق من توجيهات خريطة الموقع المستخرجة. قم بتصدير JSON للحفاظ على الأدلة للتدقيق أو المراقبة.

المواصفات الفنية

ما تقيمه الأداة

تقوم أداة الاختبار بجلب ملف robots.txt للموقع وتطبق قواعد مجموعة وكيل المستخدم على المسار المقدم. يمكنها أيضًا استخراج توجيهات خريطة الموقع للتحقق من صحة تحسين محركات البحث.

المدخلالمعنىمثال
رابط الموقعالموقع الأساسي الذي يتم منه جلب ملف robots.txt[https://example.com](https://example.com)
وكيل المستخدممجموعة الزواحف التي سيتم تقييم قواعدهاGooglebot, bingbot, *
المسار للاختبارالمسار الذي يتم التحقق منه مقابل توجيهات السماع/المنع/private/

سلوك الطلبات والسلامة

يتم تنفيذ الطلبات من جانب الخادم مع حدود أمان واتباع اختياري لإعادة التوجيه، وهو أمر مهم لإعدادات المضيف/البروتوكول الأساسي.

الإعدادالسلوكالافتراضي
اتباع إعادة التوجيهيتبع عمليات إعادة التوجيه إلى المضيف/البروتوكول النهائي قبل التقييممفعل
الحد الأقصى لإعادة التوجيهالحد الأقصى لإعادة التوجيه عند تفعيل المتابعة10
المهلةحد مهلة الطلب15000 مللي ثانية
وكيل المستخدم (الطلبات)يحدد وكيل المستخدم لطلب الأداةEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
الشبكات الخاصةيحظر الأهداف على الشبكات الخاصة لأسباب أمنيةمعطل (الشبكات الخاصة غير مسموح بها)

التفسير العملي لقواعد robots.txt

ملف robots.txt هو توجيه للزواحف (وليس نظام تحكم في الوصول). فهو يساعد في منع الزحف، ولكنه لا يضمن إزالة الفهرسة ولا يحمي البيانات الحساسة.

إذا كنت بحاجة إلى حماية المحتوى الخاص، استخدم المصادقة والتفويض المناسب. لإزالة الفهرسة، اعتمد على رؤوس noindex/ميتا وأزل الروابط العامة — فملف robots.txt وحده ليس أداة إزالة.

سطر الأوامر

يمكنك فحص ملف robots.txt بسرعة والتأكد من عمليات إعادة التوجيه باستخدام curl.

macOS / Linux

جلب ملف robots.txt

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

يقوم بتنزيل محتوى ملف robots.txt للفحص اليدوي.

اتباع إعادة التوجيه إلى robots.txt

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

مفيد عندما يقوم المضيف أو البروتوكول بإعادة التوجيه (http→https، non-www→www، إلخ).

عرض رؤوس طلب robots.txt

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

يفحص حالة HTTP، ورؤوس التخزين المؤقت، وما إذا كانت هناك عمليات إعادة توجيه.

ويندوز (PowerShell)

جلب robots.txt

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

يطبع محتوى robots.txt.

أثناء عمليات الترحيل، تحقق من ملف robots.txt على كل مضيف أساسي ونسخة بروتوكول (http/https + www/non-www) لتجنب حظر الزحف عن طريق الخطأ على المضيف الأساسي للإنتاج.

حالات الاستخدام

تشخيص مشاكل "مفهرس، ولكن محظور بواسطة robots.txt"

تأكد من القاعدة الدقيقة التي تحظر مسارًا ولمجموعة الروبوتات التي تنطبق عليها.

  • العثور على Disallow: / عن طريق الخطأ الذي يحظر الموقع بالكامل
  • التحقق من اختلاف قواعد Googlebot عن قواعد *

التحقق من صحة الترحيل وتغييرات المضيف الأساسي

تأكد من إمكانية زحف محركات البحث إلى المضيف الأساسي للإنتاج وأن ملف robots.txt موجود وصحيح بعد عمليات إعادة التوجيه.

  • عمليات إعادة التوجيه من http→https لا تزال تسمح باكتشاف robots.txt
  • المضيف الأساسي www/non-www يقدم القواعد المطلوبة

التحقق من إعلانات خريطة الموقع

استخراج أسطر Sitemap: والتأكد من أنها تشير إلى عناوين URL لخرائط المواقع الصحيحة والقابلة للوصول.

  • التحقق من استخدام عناوين URL لخريطة الموقع للمضيف الأساسي وبروتوكول https
  • اكتشاف توجيهات Sitemap المفقودة على المواقع الكبيرة

منع هدر الزحف العرضي

حظر المسارات غير المهمة حقًا (الإدارة، البحث الداخلي، المعلمات) مع الحفاظ على إمكانية زحف الأقسام القيمة.

  • حظر عناوين URL للبحث الداخلي
  • السماح بمسارات الصفحات والفئات المهمة

❓ Frequently Asked Questions

هل يمنع robots.txt الفهرسة؟

ليس بشكل موثوق. يتحكم robots.txt في الزحف، وليس الفهرسة. يمكن أن يظهر عنوان URL مفهرسًا إذا كانت صفحات أخرى تشير إليه أو إذا كان معروفًا بالفعل، حتى لو كان محظورًا من الزحف. استخدم noindex لاستراتيجيات إزالة الفهرسة.

هل يعتبر robots.txt ميزة أمان؟

لا. إنه ملف عام وهو مجرد توجيه للزاحفات المتوافقة. لا تستخدم robots.txt أبدًا لحماية الصفحات الحساسة - استخدم المصادقة والتفويض بدلاً من ذلك.

لماذا يجب أن أختبر وكلاء المستخدم المختلفين؟

يمكن لـ robots.txt تعريف مجموعات قواعد مختلفة لكل وكيل مستخدم. قد يُسمح بمسار لزاحف معين ويُحظر لآخر، اعتمادًا على تكوينك.

لماذا يهم "متابعة إعادة التوجيه"؟

لأن robots.txt خاص بالمضيف. إذا كان موقعك يعيد التوجيه إلى مضيف/بروتوكول أساسي، فإن متابعة عمليات إعادة التوجيه تضمن تقييم قواعد robots.txt للوجهة النهائية.

ما هو التكوين الافتراضي الأكثر أمانًا؟

احتفظ بالمحتوى الحرج قابلاً للزحف، وامنع فقط عناوين URL غير المفيدة حقاً، وقم دائماً بنشر خريطة موقع (أو خرائط مواقع متعددة) على مضيف https الأساسي. تجنب أنماط Disallow الواسعة إلا إذا كنت متأكداً.

هل يمكنني منع الزحف مع السماح بالفهرسة؟

إذا منعت الزحف عبر robots.txt ولكن عنوان URL مرتبط خارجياً، فقد تستمر محركات البحث في فهرسة عنوان URL دون الزحف إلى محتواه. إذا كنت بحاجة إلى إلغاء الفهرسة، استخدم noindex (وسمّح بالزحف حتى تتمكن الروبوتات من رؤيته).

Pro Tips

Best Practice

اختبر دائماً ملف robots.txt على المضيف الأساسي والبروتوكول الصحيح (https + اختيارك لـ www/غير www). تأتي العديد من حوادث "المنع" من تحرير ملف robots.txt الخاص بالمضيف الخاطئ.

Best Practice

لا تستخدم robots.txt لإلغاء الفهرسة. إذا كنت بحاجة إلى الإزالة، استخدم noindex (وسمّح بالزحف)، بالإضافة إلى إزالة الروابط الداخلية وتحديث خرائط المواقع.

CI Tip

قم بتضمين توجيهات Sitemap: التي تشير إلى عناوين URL لخرائط المواقع الأساسية والقابلة للوصول (https، اسم المضيف الصحيح).

CI Tip

أثناء عمليات النشر/الترحيل، أضف فحصاً سريعاً لـ CI يتحقق من وجود ملف robots.txt، ويعيد الحالة 200، ولا يحتوي على Disallow: / للإنتاج.

Best Practice

تجنب المنع المفرط باستخدام أنماط واسعة. يمكن أن يؤدي منع الموارد أو الأقسام الرئيسية إلى الإضرار بالعرض والاكتشاف.

Additional Resources

Other Tools