Robots.txt টেস্টার

একটি সাইটের robots.txt নিয়ম অনুযায়ী একটি ক্রলারের জন্য একটি নির্দিষ্ট পথ অনুমোদিত কিনা তা পরীক্ষা করুন। একটি User-Agent নির্বাচন করুন (যেমন, Googlebot, bingbot, বা *), চূড়ান্ত robots.txt-এ পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন, Sitemap নির্দেশিকা বের করুন, এবং SEO অডিট এবং মনিটরিংয়ের জন্য ফলাফল JSON-এ রপ্তানি করুন।

Loading…

সম্পর্কে Robots.txt টেস্টার

Robots.txt সাইট স্তরে ক্রলার অ্যাক্সেস নিয়ন্ত্রণ করে। এই টুলটি সাইটের robots.txt সংগ্রহ করে, নির্বাচিত User-Agent-এর জন্য এর নিয়ম প্রয়োগ করে, এবং আপনাকে বলে যে একটি নির্দিষ্ট পথ অনুমোদিত নাকি ব্লক করা উচিত। এটি ইন্ডেক্সিং সমস্যা নির্ণয়, মাইগ্রেশন পরিবর্তন যাচাই, এবং গুরুত্বপূর্ণ বিভাগগুলি ভুলবশত ব্লক করেছেন (বা ব্যক্তিগতগুলি প্রকাশ করেছেন) কিনা তা নিশ্চিত করার জন্য উপযুক্ত।

বৈশিষ্ট্য

  • নির্বাচিত User-Agent (Googlebot, bingbot, বা *) এর জন্য robots.txt-এর বিরুদ্ধে একটি নির্দিষ্ট পথ পরীক্ষা করুন।
  • নিয়ম মূল্যায়নের আগে সঠিক হোস্ট/প্রোটোকলে পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন।
  • Robots.txt-এ পাওয়া Sitemap: নির্দেশিকা বের করুন এবং যাচাই করুন।
  • সাধারণ ভুল কনফিগারেশন হাইলাইট করুন (অত্যধিক বিস্তৃত disallow, অনুপস্থিত sitemaps, অসামঞ্জস্যপূর্ণ হোস্ট রিডাইরেক্ট)।
  • SEO টিকিট এবং ডিবাগিংয়ের জন্য ফলাফল কপি করুন।
  • অডিট, রিগ্রেশন চেক, এবং CI মনিটরিংয়ের জন্য একটি JSON রিপোর্ট রপ্তানি করুন।
  • ডিফল্টরূপে নিরাপদ: ব্যক্তিগত-নেটওয়ার্ক টার্গেট ব্লক করে এবং একটি নির্দিষ্ট User-Agent ব্যবহার করে।

🧭 কিভাবে ব্যবহার করবেন for robots-txt-tester

1

সাইট URL লিখুন

সাইটের বেস URL পেস্ট করুন (উদাহরণস্বরূপ [https://example.com](https://example.com))। টুলটি সেই সাইটের জন্য robots.txt খুঁজে পড়বে।

2

একটি User-Agent নির্বাচন করুন

যেকোনো বট সিমুলেট করতে * নির্বাচন করুন, অথবা তাদের নির্দিষ্ট গ্রুপ নিয়ম মূল্যায়ন করতে Googlebot / bingbot নির্বাচন করুন। Robots.txt আচরণ বট অনুযায়ী ভিন্ন হতে পারে।

3

পরীক্ষা করার পথ সেট করুন

আপনি যে পথটি যাচাই করতে চান তা লিখুন (উদাহরণস্বরূপ /private/ বা /products/widget)। এটি Allow/Disallow নিয়মের বিরুদ্ধে মূল্যায়ন করা হয়।

4

“রিডাইরেক্ট অনুসরণ করুন” সক্রিয় রাখুন (প্রস্তাবিত)

যদি আপনার সাইট http→https বা non-www→www (বা উল্টো) রিডাইরেক্ট করে, রিডাইরেক্ট অনুসরণ করা নিশ্চিত করে যে আপনি সঠিক হোস্টের robots.txt মূল্যায়ন করছেন।

5

রায় এবং sitemap লাইন পর্যালোচনা করুন

নিশ্চিত করুন যে পথটি অনুমোদিত কিনা, এবং বের করা Sitemap নির্দেশিকা পরীক্ষা করুন। অডিট বা মনিটরিংয়ের জন্য প্রমাণ রাখতে JSON রপ্তানি করুন।

প্রযুক্তিগত বিবরণ

টুলটি কী মূল্যায়ন করে

টেস্টারটি সাইটের robots.txt সংগ্রহ করে এবং প্রদত্ত পথে User-Agent গ্রুপ নিয়ম প্রয়োগ করে। এটি SEO যাচাইয়ের জন্য Sitemap নির্দেশিকাও বের করতে পারে।

ইনপুটঅর্থউদাহরণ
সাইটের URLযে মূল সাইট থেকে robots.txt সংগ্রহ করা হয়[https://example.com](https://example.com)
ইউজার-এজেন্টকোন ক্রলার গ্রুপের নিয়ম মূল্যায়ন করা হবেGooglebot, bingbot, *
পরীক্ষার পাথAllow/Disallow নির্দেশাবলীর বিরুদ্ধে পরীক্ষা করা পাথ/private/

অনুরোধের আচরণ ও নিরাপত্তা

অনুরোধগুলি সার্ভার-সাইডে নিরাপত্তা সীমা সহ এবং ঐচ্ছিক রিডাইরেক্ট অনুসরণ করে পরিচালিত হয়, যা ক্যানোনিকাল হোস্ট/প্রোটোকল সেটআপের জন্য গুরুত্বপূর্ণ।

সেটিংআচরণডিফল্ট
রিডাইরেক্ট অনুসরণ করুনমূল্যায়নের আগে চূড়ান্ত হোস্ট/প্রোটোকলে রিডাইরেক্ট অনুসরণ করেসক্রিয়
সর্বোচ্চ রিডাইরেক্টঅনুসরণ সক্রিয় থাকলে রিডাইরেক্টের সীমা10
টাইমআউটঅনুরোধের টাইমআউট সীমা15000 ms
ইউজার-এজেন্ট (অনুরোধ)টুল অনুরোধের ইউজার এজেন্ট চিহ্নিত করেEncode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
প্রাইভেট নেটওয়ার্কনিরাপত্তার জন্য প্রাইভেট-নেটওয়ার্ক লক্ষ্যগুলি ব্লক করেনিষ্ক্রিয় (প্রাইভেট নেটওয়ার্ক অনুমোদিত নয়)

ব্যবহারিক robots.txt নিয়ম ব্যাখ্যা

Robots.txt হল একটি ক্রলার নির্দেশিকা (একটি অ্যাক্সেস কন্ট্রোল সিস্টেম নয়)। এটি ক্রলিং প্রতিরোধে সাহায্য করে, কিন্তু এটি ডিইন্ডেক্সিং নিশ্চিত করে না এবং সংবেদনশীল তথ্য রক্ষা করে না।

যদি আপনার ব্যক্তিগত বিষয়বস্তু রক্ষা করার প্রয়োজন হয়, তাহলে প্রমাণীকরণ এবং যথাযথ অনুমোদন ব্যবহার করুন। ডিইন্ডেক্সিংয়ের জন্য, noindex হেডার/মেটা এবং পাবলিক লিঙ্ক সরানোর উপর নির্ভর করুন—robots.txt একা একটি অপসারণ টুল নয়।

কমান্ড লাইন

আপনি দ্রুত robots.txt পরিদর্শন করতে এবং curl ব্যবহার করে রিডাইরেক্ট নিশ্চিত করতে পারেন।

macOS / Linux

robots.txt সংগ্রহ করুন

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

হাতে-কলমে পরিদর্শনের জন্য robots.txt বিষয়বস্তু ডাউনলোড করে।

robots.txt-এ রিডাইরেক্ট অনুসরণ করুন

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

যখন হোস্ট বা প্রোটোকল রিডাইরেক্ট করে (http→https, non-www→www, ইত্যাদি) তখন এটি কার্যকর।

robots.txt অনুরোধের জন্য হেডার দেখান

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

HTTP স্ট্যাটাস, ক্যাশিং হেডার এবং রিডাইরেক্ট জড়িত কিনা তা পরীক্ষা করে।

উইন্ডোজ (PowerShell)

robots.txt আনুন

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

robots.txt বিষয়বস্তু প্রিন্ট করে।

মাইগ্রেশনের সময়, উৎপাদন ক্যানোনিকাল হোস্টে ক্রলিং দুর্ঘটনাক্রমে ব্লক হওয়া এড়াতে প্রতিটি ক্যানোনিকাল হোস্ট এবং প্রোটোকল ভেরিয়েন্টে (http/https + www/non-www) robots.txt যাচাই করুন।

ব্যবহারের ক্ষেত্র

“ইনডেক্সড, কিন্তু robots.txt দ্বারা ব্লক করা” সমস্যা নির্ণয় করুন

কোন সঠিক নিয়ম কোন পথ ব্লক করে এবং কোন বট গ্রুপের জন্য তা নিশ্চিত করুন।

  • সমগ্র সাইট ব্লক করে এমন দুর্ঘটনাজনিত Disallow: / খুঁজুন
  • যাচাই করুন যে Googlebot নিয়মগুলি * নিয়ম থেকে আলাদা

মাইগ্রেশন এবং ক্যানোনিকাল হোস্ট পরিবর্তন যাচাই করুন

নিশ্চিত করুন যে উৎপাদন ক্যানোনিকাল হোস্ট ক্রলযোগ্য এবং রিডাইরেক্টের পরে robots.txt উপস্থিত ও সঠিক।

  • http→https রিডাইরেক্ট এখনও robots.txt আবিষ্কার অনুমতি দেয়
  • www/non-www ক্যানোনিকাল হোস্ট উদ্দিষ্ট নিয়ম সরবরাহ করে

সাইটম্যাপ ঘোষণা পরীক্ষা করুন

Sitemap: লাইনগুলি বের করুন এবং নিশ্চিত করুন যে সেগুলি সঠিক, অ্যাক্সেসযোগ্য সাইটম্যাপ URL-এর দিকে নির্দেশ করে।

  • যাচাই করুন যে সাইটম্যাপ URL গুলি ক্যানোনিকাল হোস্ট এবং https ব্যবহার করে
  • বড় সাইটগুলিতে অনুপস্থিত Sitemap নির্দেশনা সনাক্ত করুন

দুর্ঘটনাজনিত ক্রল অপচয় প্রতিরোধ করুন

সত্যিই গুরুত্বহীন পথগুলি (অ্যাডমিন, অভ্যন্তরীণ অনুসন্ধান, প্যারামিটার) ব্লক করুন যখন মূল্যবান বিভাগগুলি ক্রলযোগ্য রাখুন।

  • অভ্যন্তরীণ অনুসন্ধান URL গুলি Disallow করুন
  • গুরুত্বপূর্ণ পেজিনেটেড/বিভাগ পথগুলি Allow করুন

❓ Frequently Asked Questions

robots.txt কি ইনডেক্সিং প্রতিরোধ করে?

নির্ভরযোগ্যভাবে নয়। Robots.txt ক্রলিং নিয়ন্ত্রণ করে, ইনডেক্সিং নয়। একটি URL এখনও ইনডেক্সড হিসাবে উপস্থিত হতে পারে যদি অন্যান্য পৃষ্ঠাগুলি এটির সাথে লিঙ্ক করে বা এটি ইতিমধ্যেই পরিচিত হয়, এমনকি যদি এটি ক্রলিং থেকে ব্লক করা থাকে। ডিইনডেক্সিং কৌশলের জন্য noindex ব্যবহার করুন।

robots.txt কি একটি নিরাপত্তা বৈশিষ্ট্য?

না। এটি একটি পাবলিক ফাইল এবং শুধুমাত্র সম্মতিশীল ক্রলারদের জন্য একটি নির্দেশিকা। সংবেদনশীল পৃষ্ঠাগুলি রক্ষা করতে কখনই robots.txt ব্যবহার করবেন না—এর পরিবর্তে প্রমাণীকরণ এবং অনুমোদন ব্যবহার করুন।

কেন আমাকে বিভিন্ন User-Agent পরীক্ষা করা উচিত?

Robots.txt User-Agent প্রতি বিভিন্ন নিয়ম গ্রুপ সংজ্ঞায়িত করতে পারে। একটি পথ একটি ক্রলারের জন্য অনুমোদিত এবং অন্যটির জন্য ব্লক করা হতে পারে, আপনার কনফিগারেশনের উপর নির্ভর করে।

কেন “Follow Redirects” গুরুত্বপূর্ণ?

কারণ robots.txt হোস্ট-নির্দিষ্ট। যদি আপনার সাইট একটি ক্যানোনিকাল হোস্ট/প্রোটোকলে রিডাইরেক্ট করে, তাহলে রিডাইরেক্ট অনুসরণ করা নিশ্চিত করে যে আপনি চূড়ান্ত গন্তব্যের robots.txt নিয়মগুলি মূল্যায়ন করছেন।

সবচেয়ে নিরাপদ ডিফল্ট কনফিগারেশন কি?

গুরুত্বপূর্ণ কন্টেন্ট ক্রলযোগ্য রাখুন, শুধুমাত্র সত্যিই অকাজের URL গুলো ব্লক করুন, এবং সর্বদা ক্যানোনিকাল https হোস্টে একটি সাইটম্যাপ (বা একাধিক সাইটম্যাপ) প্রকাশ করুন। ব্যাপক Disallow প্যাটার্ন এড়িয়ে চলুন যদি না আপনি নিশ্চিত হন।

আমি কি ক্রলিং ব্লক করেও ইন্ডেক্সিং অনুমতি দিতে পারি?

আপনি যদি robots.txt এর মাধ্যমে ক্রলিং ব্লক করেন কিন্তু URL টি বাহ্যিকভাবে লিঙ্ক করা থাকে, সার্চ ইঞ্জিনগুলি তার কন্টেন্ট ক্রল না করেও URL টি ইন্ডেক্স করতে পারে। যদি আপনার ডিইন্ডেক্সিং প্রয়োজন হয়, noindex ব্যবহার করুন (এবং ক্রলিং অনুমতি দিন যাতে বটগুলি এটি দেখতে পারে)।

Pro Tips

Best Practice

সর্বদা ক্যানোনিকাল হোস্ট এবং প্রোটোকলে (https + আপনার নির্বাচিত www/non-www) robots.txt টেস্ট করুন। অনেক 'ব্লকড' ঘটনা ভুল হোস্টের robots.txt এডিট করার কারণে ঘটে।

Best Practice

ডিইন্ডেক্সিং এর জন্য robots.txt ব্যবহার করবেন না। আপনার যদি অপসারণের প্রয়োজন হয়, noindex ব্যবহার করুন (এবং ক্রলিং অনুমতি দিন), পাশাপাশি অভ্যন্তরীণ লিঙ্ক সরান এবং সাইটম্যাপ আপডেট করুন।

CI Tip

Sitemap: নির্দেশাবলী অন্তর্ভুক্ত করুন যা ক্যানোনিকাল, অ্যাক্সেসযোগ্য সাইটম্যাপ URL (https, সঠিক হোস্টনেম) নির্দেশ করে।

CI Tip

ডিপ্লয়মেন্ট/মাইগ্রেশন চলাকালীন, একটি দ্রুত CI চেক যোগ করুন যা যাচাই করে যে robots.txt বিদ্যমান, 200 রিটার্ন করে, এবং প্রোডাকশনের জন্য Disallow: / ধারণ করে না।

Best Practice

ব্যাপক প্যাটার্ন দিয়ে অতিরিক্ত ব্লকিং এড়িয়ে চলুন। রিসোর্স বা মূল সেকশন ব্লক করা রেন্ডারিং এবং ডিসকভারিকে ক্ষতিগ্রস্ত করতে পারে।

Additional Resources

Other Tools