Robots.txt টেস্টার
একটি সাইটের robots.txt নিয়ম অনুযায়ী একটি ক্রলারের জন্য একটি নির্দিষ্ট পথ অনুমোদিত কিনা তা পরীক্ষা করুন। একটি User-Agent নির্বাচন করুন (যেমন, Googlebot, bingbot, বা *), চূড়ান্ত robots.txt-এ পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন, Sitemap নির্দেশিকা বের করুন, এবং SEO অডিট এবং মনিটরিংয়ের জন্য ফলাফল JSON-এ রপ্তানি করুন।
বৈশিষ্ট্য
- নির্বাচিত User-Agent (Googlebot, bingbot, বা *) এর জন্য robots.txt-এর বিরুদ্ধে একটি নির্দিষ্ট পথ পরীক্ষা করুন।
- নিয়ম মূল্যায়নের আগে সঠিক হোস্ট/প্রোটোকলে পৌঁছাতে রিডাইরেক্ট অনুসরণ করুন।
- Robots.txt-এ পাওয়া Sitemap: নির্দেশিকা বের করুন এবং যাচাই করুন।
- সাধারণ ভুল কনফিগারেশন হাইলাইট করুন (অত্যধিক বিস্তৃত disallow, অনুপস্থিত sitemaps, অসামঞ্জস্যপূর্ণ হোস্ট রিডাইরেক্ট)।
- SEO টিকিট এবং ডিবাগিংয়ের জন্য ফলাফল কপি করুন।
- অডিট, রিগ্রেশন চেক, এবং CI মনিটরিংয়ের জন্য একটি JSON রিপোর্ট রপ্তানি করুন।
- ডিফল্টরূপে নিরাপদ: ব্যক্তিগত-নেটওয়ার্ক টার্গেট ব্লক করে এবং একটি নির্দিষ্ট User-Agent ব্যবহার করে।
🧭 কিভাবে ব্যবহার করবেন for robots-txt-tester
সাইট URL লিখুন
সাইটের বেস URL পেস্ট করুন (উদাহরণস্বরূপ [https://example.com](https://example.com))। টুলটি সেই সাইটের জন্য robots.txt খুঁজে পড়বে।
একটি User-Agent নির্বাচন করুন
যেকোনো বট সিমুলেট করতে * নির্বাচন করুন, অথবা তাদের নির্দিষ্ট গ্রুপ নিয়ম মূল্যায়ন করতে Googlebot / bingbot নির্বাচন করুন। Robots.txt আচরণ বট অনুযায়ী ভিন্ন হতে পারে।
পরীক্ষা করার পথ সেট করুন
আপনি যে পথটি যাচাই করতে চান তা লিখুন (উদাহরণস্বরূপ /private/ বা /products/widget)। এটি Allow/Disallow নিয়মের বিরুদ্ধে মূল্যায়ন করা হয়।
“রিডাইরেক্ট অনুসরণ করুন” সক্রিয় রাখুন (প্রস্তাবিত)
যদি আপনার সাইট http→https বা non-www→www (বা উল্টো) রিডাইরেক্ট করে, রিডাইরেক্ট অনুসরণ করা নিশ্চিত করে যে আপনি সঠিক হোস্টের robots.txt মূল্যায়ন করছেন।
রায় এবং sitemap লাইন পর্যালোচনা করুন
নিশ্চিত করুন যে পথটি অনুমোদিত কিনা, এবং বের করা Sitemap নির্দেশিকা পরীক্ষা করুন। অডিট বা মনিটরিংয়ের জন্য প্রমাণ রাখতে JSON রপ্তানি করুন।
প্রযুক্তিগত বিবরণ
টুলটি কী মূল্যায়ন করে
টেস্টারটি সাইটের robots.txt সংগ্রহ করে এবং প্রদত্ত পথে User-Agent গ্রুপ নিয়ম প্রয়োগ করে। এটি SEO যাচাইয়ের জন্য Sitemap নির্দেশিকাও বের করতে পারে।
| ইনপুট | অর্থ | উদাহরণ |
|---|---|---|
| সাইটের URL | যে মূল সাইট থেকে robots.txt সংগ্রহ করা হয় | [https://example.com](https://example.com) |
| ইউজার-এজেন্ট | কোন ক্রলার গ্রুপের নিয়ম মূল্যায়ন করা হবে | Googlebot, bingbot, * |
| পরীক্ষার পাথ | Allow/Disallow নির্দেশাবলীর বিরুদ্ধে পরীক্ষা করা পাথ | /private/ |
অনুরোধের আচরণ ও নিরাপত্তা
অনুরোধগুলি সার্ভার-সাইডে নিরাপত্তা সীমা সহ এবং ঐচ্ছিক রিডাইরেক্ট অনুসরণ করে পরিচালিত হয়, যা ক্যানোনিকাল হোস্ট/প্রোটোকল সেটআপের জন্য গুরুত্বপূর্ণ।
| সেটিং | আচরণ | ডিফল্ট |
|---|---|---|
| রিডাইরেক্ট অনুসরণ করুন | মূল্যায়নের আগে চূড়ান্ত হোস্ট/প্রোটোকলে রিডাইরেক্ট অনুসরণ করে | সক্রিয় |
| সর্বোচ্চ রিডাইরেক্ট | অনুসরণ সক্রিয় থাকলে রিডাইরেক্টের সীমা | 10 |
| টাইমআউট | অনুরোধের টাইমআউট সীমা | 15000 ms |
| ইউজার-এজেন্ট (অনুরোধ) | টুল অনুরোধের ইউজার এজেন্ট চিহ্নিত করে | Encode64Bot/1.0 (+[https://encode64.com](https://encode64.com)) |
| প্রাইভেট নেটওয়ার্ক | নিরাপত্তার জন্য প্রাইভেট-নেটওয়ার্ক লক্ষ্যগুলি ব্লক করে | নিষ্ক্রিয় (প্রাইভেট নেটওয়ার্ক অনুমোদিত নয়) |
ব্যবহারিক robots.txt নিয়ম ব্যাখ্যা
Robots.txt হল একটি ক্রলার নির্দেশিকা (একটি অ্যাক্সেস কন্ট্রোল সিস্টেম নয়)। এটি ক্রলিং প্রতিরোধে সাহায্য করে, কিন্তু এটি ডিইন্ডেক্সিং নিশ্চিত করে না এবং সংবেদনশীল তথ্য রক্ষা করে না।
কমান্ড লাইন
আপনি দ্রুত robots.txt পরিদর্শন করতে এবং curl ব্যবহার করে রিডাইরেক্ট নিশ্চিত করতে পারেন।
macOS / Linux
robots.txt সংগ্রহ করুন
curl -s [https://example.com/robots.txt](https://example.com/robots.txt)হাতে-কলমে পরিদর্শনের জন্য robots.txt বিষয়বস্তু ডাউনলোড করে।
robots.txt-এ রিডাইরেক্ট অনুসরণ করুন
curl -sL [https://example.com/robots.txt](https://example.com/robots.txt)যখন হোস্ট বা প্রোটোকল রিডাইরেক্ট করে (http→https, non-www→www, ইত্যাদি) তখন এটি কার্যকর।
robots.txt অনুরোধের জন্য হেডার দেখান
curl -I [https://example.com/robots.txt](https://example.com/robots.txt)HTTP স্ট্যাটাস, ক্যাশিং হেডার এবং রিডাইরেক্ট জড়িত কিনা তা পরীক্ষা করে।
উইন্ডোজ (PowerShell)
robots.txt আনুন
Invoke-WebRequest -Uri [https://example.com/robots.txt](https://example.com/robots.txt) | Select-Object -ExpandProperty Contentrobots.txt বিষয়বস্তু প্রিন্ট করে।
ব্যবহারের ক্ষেত্র
“ইনডেক্সড, কিন্তু robots.txt দ্বারা ব্লক করা” সমস্যা নির্ণয় করুন
কোন সঠিক নিয়ম কোন পথ ব্লক করে এবং কোন বট গ্রুপের জন্য তা নিশ্চিত করুন।
- সমগ্র সাইট ব্লক করে এমন দুর্ঘটনাজনিত Disallow: / খুঁজুন
- যাচাই করুন যে Googlebot নিয়মগুলি * নিয়ম থেকে আলাদা
মাইগ্রেশন এবং ক্যানোনিকাল হোস্ট পরিবর্তন যাচাই করুন
নিশ্চিত করুন যে উৎপাদন ক্যানোনিকাল হোস্ট ক্রলযোগ্য এবং রিডাইরেক্টের পরে robots.txt উপস্থিত ও সঠিক।
- http→https রিডাইরেক্ট এখনও robots.txt আবিষ্কার অনুমতি দেয়
- www/non-www ক্যানোনিকাল হোস্ট উদ্দিষ্ট নিয়ম সরবরাহ করে
সাইটম্যাপ ঘোষণা পরীক্ষা করুন
Sitemap: লাইনগুলি বের করুন এবং নিশ্চিত করুন যে সেগুলি সঠিক, অ্যাক্সেসযোগ্য সাইটম্যাপ URL-এর দিকে নির্দেশ করে।
- যাচাই করুন যে সাইটম্যাপ URL গুলি ক্যানোনিকাল হোস্ট এবং https ব্যবহার করে
- বড় সাইটগুলিতে অনুপস্থিত Sitemap নির্দেশনা সনাক্ত করুন
দুর্ঘটনাজনিত ক্রল অপচয় প্রতিরোধ করুন
সত্যিই গুরুত্বহীন পথগুলি (অ্যাডমিন, অভ্যন্তরীণ অনুসন্ধান, প্যারামিটার) ব্লক করুন যখন মূল্যবান বিভাগগুলি ক্রলযোগ্য রাখুন।
- অভ্যন্তরীণ অনুসন্ধান URL গুলি Disallow করুন
- গুরুত্বপূর্ণ পেজিনেটেড/বিভাগ পথগুলি Allow করুন
❓ Frequently Asked Questions
❓robots.txt কি ইনডেক্সিং প্রতিরোধ করে?
❓robots.txt কি একটি নিরাপত্তা বৈশিষ্ট্য?
❓কেন আমাকে বিভিন্ন User-Agent পরীক্ষা করা উচিত?
❓কেন “Follow Redirects” গুরুত্বপূর্ণ?
❓সবচেয়ে নিরাপদ ডিফল্ট কনফিগারেশন কি?
❓আমি কি ক্রলিং ব্লক করেও ইন্ডেক্সিং অনুমতি দিতে পারি?
Pro Tips
সর্বদা ক্যানোনিকাল হোস্ট এবং প্রোটোকলে (https + আপনার নির্বাচিত www/non-www) robots.txt টেস্ট করুন। অনেক 'ব্লকড' ঘটনা ভুল হোস্টের robots.txt এডিট করার কারণে ঘটে।
ডিইন্ডেক্সিং এর জন্য robots.txt ব্যবহার করবেন না। আপনার যদি অপসারণের প্রয়োজন হয়, noindex ব্যবহার করুন (এবং ক্রলিং অনুমতি দিন), পাশাপাশি অভ্যন্তরীণ লিঙ্ক সরান এবং সাইটম্যাপ আপডেট করুন।
Sitemap: নির্দেশাবলী অন্তর্ভুক্ত করুন যা ক্যানোনিকাল, অ্যাক্সেসযোগ্য সাইটম্যাপ URL (https, সঠিক হোস্টনেম) নির্দেশ করে।
ডিপ্লয়মেন্ট/মাইগ্রেশন চলাকালীন, একটি দ্রুত CI চেক যোগ করুন যা যাচাই করে যে robots.txt বিদ্যমান, 200 রিটার্ন করে, এবং প্রোডাকশনের জন্য Disallow: / ধারণ করে না।
ব্যাপক প্যাটার্ন দিয়ে অতিরিক্ত ব্লকিং এড়িয়ে চলুন। রিসোর্স বা মূল সেকশন ব্লক করা রেন্ডারিং এবং ডিসকভারিকে ক্ষতিগ্রস্ত করতে পারে।
Additional Resources
Other Tools
- সিএসএস সৌন্দর্যবর্ধক
- এইচটিএমএল সৌন্দর্যবর্ধক
- জাভাস্ক্রিপ্ট সৌন্দর্যবর্ধক
- পিএইচপি সৌন্দর্যবর্ধক
- রং নির্বাচক
- স্প্রাইট এক্সট্র্যাক্টর
- বেস৩২ বাইনারি এনকোডার
- বেস৩২ ডিকোডার
- বেস৩২ এনকোডার
- বেস৫৮ বাইনারি এনকোডার
- বেস৫৮ ডিকোডার
- বেস৫৮ এনকোডার
- বেস৬২ বাইনারি এনকোডার
- বেস৬২ ডিকোডার
- বেস৬২ এনকোডার
- বেস৬৪ বাইনারি এনকোডার
- বেস৬৪ ডিকোডার
- বেস৬৪ এনকোডার
- হেক্স বাইনারি এনকোডার
- হেক্স ডিকোডার
- হেক্স এনকোডার
- সি-শার্প ফরম্যাটার
- সিএসভি ফরম্যাটার
- Dockerfile Formatter
- এলম ফরম্যাটার
- ইএনভি ফরম্যাটার
- গো ফরম্যাটার
- গ্রাফকিউএল ফরম্যাটার
- এইচসিএল ফরম্যাটার
- আইএনআই ফরম্যাটার
- জেসন ফরম্যাটার
- ল্যাটেক ফরম্যাটার
- মার্কডাউন ফরম্যাটার
- অবজেক্টিভসি ফরম্যাটার
- Php Formatter
- প্রোটো ফরম্যাটার
- পাইথন ফরম্যাটার
- রুবি ফরম্যাটার
- রাস্ট ফরম্যাটার
- স্কালা ফরম্যাটার
- শেল স্ক্রিপ্ট ফরম্যাটার
- এসকিউএল ফরম্যাটার
- SVG ফরম্যাটার
- Swift ফরম্যাটার
- TOML ফরম্যাটার
- Typescript Formatter
- XML ফরম্যাটার
- YAML ফরম্যাটার
- Yarn ফরম্যাটার
- সিএসএস মিনিফায়ার
- Html Minifier
- Javascript Minifier
- জেসন মিনিফায়ার
- XML মিনিফায়ার
- Cache Headers Analyzer
- Cors Checker
- Csp Analyzer
- Dns Records Lookup
- এইচটিটিপি হেডার ভিউয়ার
- Http Status Checker
- Open Graph Meta Checker
- Redirect Chain Viewer
- Security Headers Checker
- Security Txt Checker
- Sitemap Url Inspector
- Tls Certificate Checker
- পিডিএফ থেকে টেক্সট
- রেজেক্স টেস্টার
- সার্প র্যাংক চেকার
- Whois লুকআপ