Robots.txt টেস্টার

একটি সাইটের robots.txt নিয়ম অনুযায়ী একটি ক্রলারের জন্য একটি নির্দিষ্ট পথ অনুমোদিত কিনা তা পরীক্ষা করুন। একটি User-Agent নির্বাচন করুন (যেমন, Googlebot, bingbot, বা *), চূড়ান্ত robots.txt-এ পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন, Sitemap নির্দেশিকা বের করুন, এবং SEO অডিট এবং মনিটরিংয়ের জন্য ফলাফল JSON-এ রপ্তানি করুন।

Loading…

সম্পর্কে Robots.txt টেস্টার

Robots.txt সাইট স্তরে ক্রলার অ্যাক্সেস নিয়ন্ত্রণ করে। এই টুলটি সাইটের robots.txt সংগ্রহ করে, নির্বাচিত User-Agent-এর জন্য এর নিয়ম প্রয়োগ করে, এবং আপনাকে বলে যে একটি নির্দিষ্ট পথ অনুমোদিত নাকি ব্লক করা উচিত। এটি ইন্ডেক্সিং সমস্যা নির্ণয়, মাইগ্রেশন পরিবর্তন যাচাই, এবং গুরুত্বপূর্ণ বিভাগগুলি ভুলবশত ব্লক করেছেন (বা ব্যক্তিগতগুলি প্রকাশ করেছেন) কিনা তা নিশ্চিত করার জন্য উপযুক্ত।

বৈশিষ্ট্য

নির্বাচিত User-Agent (Googlebot, bingbot, বা *) এর জন্য robots.txt-এর বিরুদ্ধে একটি নির্দিষ্ট পথ পরীক্ষা করুন।
নিয়ম মূল্যায়নের আগে সঠিক হোস্ট/প্রোটোকলে পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন।
Robots.txt-এ পাওয়া Sitemap: নির্দেশিকা বের করুন এবং যাচাই করুন।
সাধারণ ভুল কনফিগারেশন হাইলাইট করুন (অত্যধিক বিস্তৃত disallow, অনুপস্থিত sitemaps, অসামঞ্জস্যপূর্ণ হোস্ট রিডাইরেক্ট)।
SEO টিকিট এবং ডিবাগিংয়ের জন্য ফলাফল কপি করুন।
অডিট, রিগ্রেশন চেক, এবং CI মনিটরিংয়ের জন্য একটি JSON রিপোর্ট রপ্তানি করুন।
ডিফল্টরূপে নিরাপদ: ব্যক্তিগত-নেটওয়ার্ক টার্গেট ব্লক করে এবং একটি নির্দিষ্ট User-Agent ব্যবহার করে।

🧭 কিভাবে ব্যবহার করবেন for robots-txt-tester

সাইট URL লিখুন

সাইটের বেস URL পেস্ট করুন (উদাহরণস্বরূপ [https://example.com](https://example.com))। টুলটি সেই সাইটের জন্য robots.txt খুঁজে পড়বে।

একটি User-Agent নির্বাচন করুন

যেকোনো বট সিমুলেট করতে * নির্বাচন করুন, অথবা তাদের নির্দিষ্ট গ্রুপ নিয়ম মূল্যায়ন করতে Googlebot / bingbot নির্বাচন করুন। Robots.txt আচরণ বট অনুযায়ী ভিন্ন হতে পারে।

পরীক্ষা করার পথ সেট করুন

আপনি যে পথটি যাচাই করতে চান তা লিখুন (উদাহরণস্বরূপ /private/ বা /products/widget)। এটি Allow/Disallow নিয়মের বিরুদ্ধে মূল্যায়ন করা হয়।

“রিডাইরেক্ট অনুসরণ করুন” সক্রিয় রাখুন (প্রস্তাবিত)

যদি আপনার সাইট http→https বা non-www→www (বা উল্টো) রিডাইরেক্ট করে, রিডাইরেক্ট অনুসরণ করা নিশ্চিত করে যে আপনি সঠিক হোস্টের robots.txt মূল্যায়ন করছেন।

রায় এবং sitemap লাইন পর্যালোচনা করুন

নিশ্চিত করুন যে পথটি অনুমোদিত কিনা, এবং বের করা Sitemap নির্দেশিকা পরীক্ষা করুন। অডিট বা মনিটরিংয়ের জন্য প্রমাণ রাখতে JSON রপ্তানি করুন।

প্রযুক্তিগত বিবরণ

টুলটি কী মূল্যায়ন করে

টেস্টারটি সাইটের robots.txt সংগ্রহ করে এবং প্রদত্ত পথে User-Agent গ্রুপ নিয়ম প্রয়োগ করে। এটি SEO যাচাইয়ের জন্য Sitemap নির্দেশিকাও বের করতে পারে।

ইনপুট	অর্থ	উদাহরণ
সাইটের URL	যে মূল সাইট থেকে robots.txt সংগ্রহ করা হয়	[https://example.com](https://example.com)
ইউজার-এজেন্ট	কোন ক্রলার গ্রুপের নিয়ম মূল্যায়ন করা হবে	Googlebot, bingbot, *
পরীক্ষার পাথ	Allow/Disallow নির্দেশাবলীর বিরুদ্ধে পরীক্ষা করা পাথ	/private/

অনুরোধের আচরণ ও নিরাপত্তা

অনুরোধগুলি সার্ভার-সাইডে নিরাপত্তা সীমা সহ এবং ঐচ্ছিক রিডাইরেক্ট অনুসরণ করে পরিচালিত হয়, যা ক্যানোনিকাল হোস্ট/প্রোটোকল সেটআপের জন্য গুরুত্বপূর্ণ।

সেটিং	আচরণ	ডিফল্ট
রিডাইরেক্ট অনুসরণ করুন	মূল্যায়নের আগে চূড়ান্ত হোস্ট/প্রোটোকলে রিডাইরেক্ট অনুসরণ করে	সক্রিয়
সর্বোচ্চ রিডাইরেক্ট	অনুসরণ সক্রিয় থাকলে রিডাইরেক্টের সীমা	10
টাইমআউট	অনুরোধের টাইমআউট সীমা	15000 ms
ইউজার-এজেন্ট (অনুরোধ)	টুল অনুরোধের ইউজার এজেন্ট চিহ্নিত করে	Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com))
প্রাইভেট নেটওয়ার্ক	নিরাপত্তার জন্য প্রাইভেট-নেটওয়ার্ক লক্ষ্যগুলি ব্লক করে	নিষ্ক্রিয় (প্রাইভেট নেটওয়ার্ক অনুমোদিত নয়)

ব্যবহারিক robots.txt নিয়ম ব্যাখ্যা

Robots.txt হল একটি ক্রলার নির্দেশিকা (একটি অ্যাক্সেস কন্ট্রোল সিস্টেম নয়)। এটি ক্রলিং প্রতিরোধে সাহায্য করে, কিন্তু এটি ডিইন্ডেক্সিং নিশ্চিত করে না এবং সংবেদনশীল তথ্য রক্ষা করে না।

যদি আপনার ব্যক্তিগত বিষয়বস্তু রক্ষা করার প্রয়োজন হয়, তাহলে প্রমাণীকরণ এবং যথাযথ অনুমোদন ব্যবহার করুন। ডিইন্ডেক্সিংয়ের জন্য, noindex হেডার/মেটা এবং পাবলিক লিঙ্ক সরানোর উপর নির্ভর করুন—robots.txt একা একটি অপসারণ টুল নয়।

কমান্ড লাইন

আপনি দ্রুত robots.txt পরিদর্শন করতে এবং curl ব্যবহার করে রিডাইরেক্ট নিশ্চিত করতে পারেন।

macOS / Linux

robots.txt সংগ্রহ করুন

curl -s [https://example.com/robots.txt](https://example.com/robots.txt)

হাতে-কলমে পরিদর্শনের জন্য robots.txt বিষয়বস্তু ডাউনলোড করে।

robots.txt-এ রিডাইরেক্ট অনুসরণ করুন

curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)

যখন হোস্ট বা প্রোটোকল রিডাইরেক্ট করে (http→https, non-www→www, ইত্যাদি) তখন এটি কার্যকর।

robots.txt অনুরোধের জন্য হেডার দেখান

curl -I [https://example.com/robots.txt](https://example.com/robots.txt)

HTTP স্ট্যাটাস, ক্যাশিং হেডার এবং রিডাইরেক্ট জড়িত কিনা তা পরীক্ষা করে।

উইন্ডোজ (PowerShell)

robots.txt আনুন

Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Content

robots.txt বিষয়বস্তু প্রিন্ট করে।

মাইগ্রেশনের সময়, উৎপাদন ক্যানোনিকাল হোস্টে ক্রলিং দুর্ঘটনাক্রমে ব্লক হওয়া এড়াতে প্রতিটি ক্যানোনিকাল হোস্ট এবং প্রোটোকল ভেরিয়েন্টে (http/https + www/non-www) robots.txt যাচাই করুন।

ব্যবহারের ক্ষেত্র

“ইনডেক্সড, কিন্তু robots.txt দ্বারা ব্লক করা” সমস্যা নির্ণয় করুন

কোন সঠিক নিয়ম কোন পথ ব্লক করে এবং কোন বট গ্রুপের জন্য তা নিশ্চিত করুন।

সমগ্র সাইট ব্লক করে এমন দুর্ঘটনাজনিত Disallow: / খুঁজুন
যাচাই করুন যে Googlebot নিয়মগুলি * নিয়ম থেকে আলাদা

মাইগ্রেশন এবং ক্যানোনিকাল হোস্ট পরিবর্তন যাচাই করুন

নিশ্চিত করুন যে উৎপাদন ক্যানোনিকাল হোস্ট ক্রলযোগ্য এবং রিডাইরেক্টের পরে robots.txt উপস্থিত ও সঠিক।

http→https রিডাইরেক্ট এখনও robots.txt আবিষ্কার অনুমতি দেয়
www/non-www ক্যানোনিকাল হোস্ট উদ্দিষ্ট নিয়ম সরবরাহ করে

সাইটম্যাপ ঘোষণা পরীক্ষা করুন

Sitemap: লাইনগুলি বের করুন এবং নিশ্চিত করুন যে সেগুলি সঠিক, অ্যাক্সেসযোগ্য সাইটম্যাপ URL-এর দিকে নির্দেশ করে।

যাচাই করুন যে সাইটম্যাপ URL গুলি ক্যানোনিকাল হোস্ট এবং https ব্যবহার করে
বড় সাইটগুলিতে অনুপস্থিত Sitemap নির্দেশনা সনাক্ত করুন

দুর্ঘটনাজনিত ক্রল অপচয় প্রতিরোধ করুন

সত্যিই গুরুত্বহীন পথগুলি (অ্যাডমিন, অভ্যন্তরীণ অনুসন্ধান, প্যারামিটার) ব্লক করুন যখন মূল্যবান বিভাগগুলি ক্রলযোগ্য রাখুন।

অভ্যন্তরীণ অনুসন্ধান URL গুলি Disallow করুন
গুরুত্বপূর্ণ পেজিনেটেড/বিভাগ পথগুলি Allow করুন

❓ Frequently Asked Questions

❓robots.txt কি ইনডেক্সিং প্রতিরোধ করে?

নির্ভরযোগ্যভাবে নয়। Robots.txt ক্রলিং নিয়ন্ত্রণ করে, ইনডেক্সিং নয়। একটি URL এখনও ইনডেক্সড হিসাবে উপস্থিত হতে পারে যদি অন্যান্য পৃষ্ঠাগুলি এটির সাথে লিঙ্ক করে বা এটি ইতিমধ্যেই পরিচিত হয়, এমনকি যদি এটি ক্রলিং থেকে ব্লক করা থাকে। ডিইনডেক্সিং কৌশলের জন্য noindex ব্যবহার করুন।

❓robots.txt কি একটি নিরাপত্তা বৈশিষ্ট্য?

না। এটি একটি পাবলিক ফাইল এবং শুধুমাত্র সম্মতিশীল ক্রলারদের জন্য একটি নির্দেশিকা। সংবেদনশীল পৃষ্ঠাগুলি রক্ষা করতে কখনই robots.txt ব্যবহার করবেন না—এর পরিবর্তে প্রমাণীকরণ এবং অনুমোদন ব্যবহার করুন।

❓কেন আমাকে বিভিন্ন User-Agent পরীক্ষা করা উচিত?

Robots.txt User-Agent প্রতি বিভিন্ন নিয়ম গ্রুপ সংজ্ঞায়িত করতে পারে। একটি পথ একটি ক্রলারের জন্য অনুমোদিত এবং অন্যটির জন্য ব্লক করা হতে পারে, আপনার কনফিগারেশনের উপর নির্ভর করে।

❓কেন “Follow Redirects” গুরুত্বপূর্ণ?

কারণ robots.txt হোস্ট-নির্দিষ্ট। যদি আপনার সাইট একটি ক্যানোনিকাল হোস্ট/প্রোটোকলে রিডাইরেক্ট করে, তাহলে রিডাইরেক্ট অনুসরণ করা নিশ্চিত করে যে আপনি চূড়ান্ত গন্তব্যের robots.txt নিয়মগুলি মূল্যায়ন করছেন।

❓সবচেয়ে নিরাপদ ডিফল্ট কনফিগারেশন কি?

গুরুত্বপূর্ণ কন্টেন্ট ক্রলযোগ্য রাখুন, শুধুমাত্র সত্যিই অকাজের URL গুলো ব্লক করুন, এবং সর্বদা ক্যানোনিকাল https হোস্টে একটি সাইটম্যাপ (বা একাধিক সাইটম্যাপ) প্রকাশ করুন। ব্যাপক Disallow প্যাটার্ন এড়িয়ে চলুন যদি না আপনি নিশ্চিত হন।

❓আমি কি ক্রলিং ব্লক করেও ইন্ডেক্সিং অনুমতি দিতে পারি?

আপনি যদি robots.txt এর মাধ্যমে ক্রলিং ব্লক করেন কিন্তু URL টি বাহ্যিকভাবে লিঙ্ক করা থাকে, সার্চ ইঞ্জিনগুলি তার কন্টেন্ট ক্রল না করেও URL টি ইন্ডেক্স করতে পারে। যদি আপনার ডিইন্ডেক্সিং প্রয়োজন হয়, noindex ব্যবহার করুন (এবং ক্রলিং অনুমতি দিন যাতে বটগুলি এটি দেখতে পারে)।

Pro Tips

Best Practice

সর্বদা ক্যানোনিকাল হোস্ট এবং প্রোটোকলে (https + আপনার নির্বাচিত www/non-www) robots.txt টেস্ট করুন। অনেক 'ব্লকড' ঘটনা ভুল হোস্টের robots.txt এডিট করার কারণে ঘটে।

Best Practice

ডিইন্ডেক্সিং এর জন্য robots.txt ব্যবহার করবেন না। আপনার যদি অপসারণের প্রয়োজন হয়, noindex ব্যবহার করুন (এবং ক্রলিং অনুমতি দিন), পাশাপাশি অভ্যন্তরীণ লিঙ্ক সরান এবং সাইটম্যাপ আপডেট করুন।

CI Tip

Sitemap: নির্দেশাবলী অন্তর্ভুক্ত করুন যা ক্যানোনিকাল, অ্যাক্সেসযোগ্য সাইটম্যাপ URL (https, সঠিক হোস্টনেম) নির্দেশ করে।

CI Tip

ডিপ্লয়মেন্ট/মাইগ্রেশন চলাকালীন, একটি দ্রুত CI চেক যোগ করুন যা যাচাই করে যে robots.txt বিদ্যমান, 200 রিটার্ন করে, এবং প্রোডাকশনের জন্য Disallow: / ধারণ করে না।

Best Practice

ব্যাপক প্যাটার্ন দিয়ে অতিরিক্ত ব্লকিং এড়িয়ে চলুন। রিসোর্স বা মূল সেকশন ব্লক করা রেন্ডারিং এবং ডিসকভারিকে ক্ষতিগ্রস্ত করতে পারে।

Additional Resources

robots.txt স্পেসিফিকেশন (RFC 9309)

Documentation

Google Search Central: robots.txt

Documentation

Google Search Central: robots.txt টেস্টিং এবং সাধারণ সমস্যা

Documentation

Robots.txt টেস্টার

সম্পর্কে Robots.txt টেস্টার

✨ বৈশিষ্ট্য

🧭 কিভাবে ব্যবহার করবেন for robots-txt-tester

সাইট URL লিখুন

একটি User-Agent নির্বাচন করুন

পরীক্ষা করার পথ সেট করুন

“রিডাইরেক্ট অনুসরণ করুন” সক্রিয় রাখুন (প্রস্তাবিত)

রায় এবং sitemap লাইন পর্যালোচনা করুন

🧩 প্রযুক্তিগত বিবরণ

📄টুলটি কী মূল্যায়ন করে

⚙️অনুরোধের আচরণ ও নিরাপত্তা

🧠ব্যবহারিক robots.txt নিয়ম ব্যাখ্যা

💻 কমান্ড লাইন

🧑‍💻macOS / Linux

🪟উইন্ডোজ (PowerShell)

🎯 ব্যবহারের ক্ষেত্র

🧪“ইনডেক্সড, কিন্তু robots.txt দ্বারা ব্লক করা” সমস্যা নির্ণয় করুন

🚚মাইগ্রেশন এবং ক্যানোনিকাল হোস্ট পরিবর্তন যাচাই করুন

🗺️সাইটম্যাপ ঘোষণা পরীক্ষা করুন

🧰দুর্ঘটনাজনিত ক্রল অপচয় প্রতিরোধ করুন

❓ Frequently Asked Questions

❓robots.txt কি ইনডেক্সিং প্রতিরোধ করে?

❓robots.txt কি একটি নিরাপত্তা বৈশিষ্ট্য?

❓কেন আমাকে বিভিন্ন User-Agent পরীক্ষা করা উচিত?

❓কেন “Follow Redirects” গুরুত্বপূর্ণ?

❓সবচেয়ে নিরাপদ ডিফল্ট কনফিগারেশন কি?

❓আমি কি ক্রলিং ব্লক করেও ইন্ডেক্সিং অনুমতি দিতে পারি?

Pro Tips

Additional Resources

Other Tools

বৈশিষ্ট্য

প্রযুক্তিগত বিবরণ

টুলটি কী মূল্যায়ন করে

অনুরোধের আচরণ ও নিরাপত্তা

ব্যবহারিক robots.txt নিয়ম ব্যাখ্যা

কমান্ড লাইন

macOS / Linux

উইন্ডোজ (PowerShell)

ব্যবহারের ক্ষেত্র

“ইনডেক্সড, কিন্তু robots.txt দ্বারা ব্লক করা” সমস্যা নির্ণয় করুন

মাইগ্রেশন এবং ক্যানোনিকাল হোস্ট পরিবর্তন যাচাই করুন

সাইটম্যাপ ঘোষণা পরীক্ষা করুন

দুর্ঘটনাজনিত ক্রল অপচয় প্রতিরোধ করুন