You are currently viewing রোবটস ডট টেক্সট ফাইল কী? | robots.txt file for SEO in Bangla

রোবটস ডট টেক্সট ফাইল কী? একটি ওয়েবসাইটে এর কী ভূমিকা রয়েছে তা নিয়ে আলোচনা করা হয়েছে। পাশাপাশি এটিকে কিভাবে তৈরী করা উচিত তা নিয়ে এই আর্টিকেলে কিছু পয়েন্ট উল্লেখ করা হয়েছে।

সার্চ ইঞ্জিন যেমন গুগল, বিং একপ্রকার প্রোগ্রাম ব্যবহার করে ইন্টারনেটে থাকা ওয়েবসাইটগুলোতে গিয়ে জরুরী তথ্যগুলো সংগ্রহ করে। এভাবে এই প্রোগ্রাম এক ওয়েবসাইট থেকে আরেকটি ওয়েবসাইটে গিয়ে তথ্যগুলো সংগ্রহ করে। এই ধরণের প্রোগ্রামগুলোকে ওয়েব ক্রলারস, ওয়েবসাইট বট, রোবটস কিংবা স্পাইডার বলা হয়।

ইন্টারনেটের একদম প্রাথমিক পর্যায়ে কম্পিউটার এর পাওয়ার সিস্টেম এবং মেমোরি অত্যান্ত ব্যায়বহুল ছিল। তখন ওয়েবসাইট পরিচালনাকারীরা এসকল বট, স্পাইডার কিংবা ওয়েব ক্রলারস এর জন্য অনেক বিরক্ত অনুভব করতেন।

কারণ তখন ওয়েবসাইটের সংখ্যা ছিল খুবই কম। যার ফলে ওয়েবসাইট এর ক্রলারস বার বার ওয়েবসাইটে আসতো। ফলস্বরূপ আসল ওয়েবসাইট ব্যাবহারকারীরা ওয়েবসাইট দেখতে পেতো না। সার্ভার ডাউন থাকতো। ওয়েবসাইটের রিসোর্স শেষ হয়ে যেত।

এই সমস্যা সমাধানের উদ্দেশ্যে ওয়েবসাইট পরিচালকেরা রোবটস ডট টেক্সট ফাইল এর কথা চিন্তা করেন।

রোবটস ডট টেক্সট ফাইল এর মূল কাজ

রোবটস ডট টেক্সট ফাইল সার্চ ইঞ্জিনের সকল প্রকারের ক্রলার এবং ওয়েব রোবটসমূহকে কিছু ইন্সট্রাকশন দিবে। ইস্ট্রাকশনে বলা থাকবে ওয়েবসাইটের মালিক ওয়েবসাইটের কোন কোন অংশকে দেখার অনুমতি দিচ্ছে এবং কোন কোন অংশকে দেখার অনুমতি দিচ্ছে না। robots.txt একটি টেক্সট ফাইল। এটি ওয়েবসাইটের রুট ফোল্ডারে থাকে।

আমরা একটি ওয়েবসাইটকে উদাহরণস্বরূপ নিতে পারি। ধরলাম এটির ডোমেইন এর নাম : https://abcd.com

যখন কোনো সার্চ ইঞ্জিনের রোবট ওয়েবসাইটটিকে ভিজিট করবে তখন সর্বপ্রথম সেটি এর রোবটস ডট টেক্সট ফাইলকে খুঁজবে। এক্ষেত্রে এটি খুঁজবে https://abcd.com/robots.txt। যদি ফাইলটি না পাওয়া যায় তাহলে ওয়েব রোবট সম্পূর্ণ ওয়েবসাইটটিকে ক্রল করে এর যে কোনো কন্টেন্টকে সার্চ রেজাল্টে দেখাতে পারবে।

ওয়েবক্রলার যদি ওয়েবসাইটটির https://abcd.com/robots.txt ফাইলটিকে খুঁজে পায় তাহলে এটি ফাইল এ উল্লেখিত সম্পূর্ণ নির্দেশনা ফলো করবে।

এখন পর্যন্ত যা আলোচনা করা হয়েছে তা নিচে দেওয়া হলো।

  • robots.txt একটি টেক্সট ফাইল
  • এটিকে ওয়েবসাইটের রুট ফোল্ডারে রাখা হয়
  • সবসময় ফাইলটির নাম হয় robots.txt
  • উদাহরণ: https://abcd.com/robots.txt
  • এই ফাইলে দেয়া নির্দেশনা কোনো সার্চ ইঞ্জিনের বট মানতেও পারে আবার নাও মানতে পারে

যদিও গুগল, বিং, ইয়াহু, ইয়ানডেক্স এই নির্দেশনাগুলো মেনে চলে। তবে ছোট সার্চ ইঞ্জিনসমূহ এগুলো সাধারণত মেনে চলে না।

আরও জানুনঃ ক্যানোনিকাল ট্যাগ কী এবং এটি কিভাবে ব্যবহার করতে হয়

রোবটস ডট টেক্সট ফাইল এ কী কী থাকে?

User-agent: *
Disallow:

এই অংশটুকু রোবটস ডট টেক্সট ফাইল এর আবশ্যক বিষয়বস্তু। আপনি যদি সকল সার্চ ইঞ্জিন রোবট সমূহকে আপনার ওয়েবসাইটের সকল পেইজসমূতে যাওয়ার অনুমতি দিতে চান তাহলে আপনার ওয়েবসাইটে রোবোটস ডট টেক্সট ফাইল এ শুধু এইটুকুই থাকতে হবে।

এই ফাইলের প্রথম লাইনটি হলো User-agent: *। এর মাধ্যমে বোঝানো হয়েছে সকল প্রকারের সার্চ ইঞ্জিন বট এর জন্য নির্দেশনা রয়েছে।

দ্বিতীয় লাইনটি হলো Disallow: । এর পরে আর কিছু নেই। অর্থাৎ সকল সার্চ ইঞ্জিনের জন্য এই ওয়েবসাইটের কোনো অংশকে নিষেধ করা হয় নি।

যদি Disallow: এর পর / ( ফরওয়ার্ড স্ল্যাশ ) চিহ্ন যুক্ত করা থাকে তাহলে সার্চ ইঞ্জিন বট বুঝে নিবে যে রুট ডিরেক্টরি এর সকল ফাইল ক্রল করতে নিষেধ করা হয়েছে।

তবে মনে রাখবেন, সকল প্রকার ওয়েবসাইটের ডোমেইন এর পর ফরওয়ার্ড স্ল্যাশ দিয়ে এরপরই কোনো একটি তৈরী হয়।

  • https://abcd.com/about
  • https://abcd.com/blog

এবং হোম পেইজ এর ক্ষেত্রে ডোমেইন এর পরে ফরওয়ার্ড স্ল্যাশ তারপর .html অথবা .php থাকে। ওয়েব ব্রাউজার এটিকে হাইড করে রাখে। যদি আপনি Disallow: এর পরে / ব্যবহার করেন তাহলে আপনি আপনার ওয়েবসাইটের সকল ফাইলকে সার্চ ইঞ্জিনের জন্যে ব্লক করে দিচ্ছেন।

যদি আপনি স্পেসিফিক কোনো সার্চ ইঞ্জিনকে আপনার ওয়েবসাইটকে ক্রল করা থেকে বিরত রাখতে চান তাহলে User-agent: * এর * এর জায়গায় ওই সার্চ ইঞ্জিন বট এর নাম দিতে পারেন। এরপরে আপনার নির্দেশনা যুক্ত করবেন।

যেমন, গুগলকে নিষেধ করলে ফাইল এর টেক্সট এমন হবে।

User-agent: Googlebot
Disallow:

এস ই ও তে রোবটস ডট টেক্সট ফাইল এর প্রভাব

গুগল প্রতিটি ওয়েবসাইটের জন্য একটি ক্রল বাজেট রাখে। এর মাধ্যমে নির্ধারিত হয় গুগল বট আপনার ওয়েবসাইটিতে কত বার আসবে। এটি দুইটি বিষয়ের উপর নির্ভরশীল।

  1. আপনার সার্ভার ক্রল করার সময় স্লো হয়ে যাচ্ছে নাতো?
  2. আপনার ওয়েবসাইট কতোটা পরিচিত এবং বিখ্যাত।

যেসকল ওয়েবসাইটে অনেক কন্টেন্ট সেগুলোকে গুগল বার বার চেক করতে চায়। যাতে গুগল কনটেন্ট এর সাথে সার্চ রেজালকে আপডেটেড রাখতে পারে।

আপনি যদি চান গুগল আপনার ওয়েবসাইটে করল বাজেটের সেরাটা দিক তাহলে আপনি ওয়েবসাইটের গুরুত্বহীন পেইজগুলোকে ব্লক করে দিতে পারেন।

রোবটস ডট টেক্সট ফাইল এর মাধ্যমে মেইনটেনেন্স পর্যায়ে থাকা পেইজগুলোকে ইন্ডেক্সিংএ ব্লক করতে পারেন।

আবার উদাহরণস্বরূপ আমরা আগের ওয়েবসাইটটিকে নিয়ে আসতে চাই , আগের ওয়েবসাইটটির ঠিকানা https://abcd.com/

এই ওয়েবসাইটে result নামে একটি ফোল্ডার রয়েছে, যেটিতে result.html নামে একটি পেইজ রয়েছে।

result ফোল্ডারের সকল ফাইলকে সার্চ ইঞ্জিন এর ক্রলিং থেকে বন্ধ রাখতে রোবটস ডট টেক্সট ফাইল এ এই কোড টুকু যুক্ত করবেন।

User-agent: *
Disallow: /result

শুধুমাত্র result.html পেইজটিকে ক্রলিং থেকে বন্ধ রাখতে এই কোডটুকু যুক্ত করবেন।

User-agent: *
Disallow: /result.html

এছাড়া রোবটস ডট টেক্সট ফাইল এ সার্চ রোবটের জন্য সাইটম্যাপ এর লিংক যুক্ত করতে পারেন। এজন্য আপনাকে এই লাইনটি যুক্ত করতে হবে।

Sitemap: https://abcd.com/sitemap.xml

সার্চ ইঞ্জিনের বট এর ক্রলিং এর জন্যে আপনার ওয়েবসাইট সাধারণ ব্যাবহারকারীদের জন্য কিছুটা স্লো হয়ে যেতে পারে। যদি আপনার ওয়েবসাইটে অনেক বেশি ট্রাফিক আসে তাহলে এই স্লো হয়ে যাওয়া কিছুটা হলেও ক্ষতিকর হতে পারে। এজন্য আপনি রোবটস ডট টেক্সট ফাইল এ একটি ক্রল ডিলে টাইমার যুক্ত করতে পারেন। এটি ব্যবহার করলে সার্চ ইঞ্জিন রোবট একটি পেইজকে ক্রল করবার পরে আরেকটি পেইজকে করল করার পূর্বে কিছুটা সময় ওয়েট করবে।

এই অপেক্ষার সময় কিংবা ক্রলিং ডিলে ডিফল্টভাবে মিলি সেকেন্ডে হিসাব করা হয়। এটি যুক্ত করার জন্য নিচের কোডটি যুক্ত করবেন।

Crawl-delay: ( মিলি সেকেন্ড এ সময় )। যেমন, ক্রলিং ডিলে ১০ সেকেন্ড দিতে চাইলে নিচের কোডটুকু যুক্ত করবেন।

Crawl-delay: 10

এর অর্থ হলো ক্রলার একটি পেইজকে করল করবার পরে ১০ মিলিসেকেন্ড অপেক্ষা করবার পরে আরেকটি পেইজে যাবে। এর ফলে আপনার সাইট হটাৎ স্লো হয়ে যাবে না।

উপসংহার

আমরা আশা করি এই আর্টিকেলে উল্লেখিত রোবটস ডট টেক্সট ফাইল সম্পর্কিত তথ্য সঠিকভাবে আপনার ওয়েবসাইটের রোবটস ডট টেক্সট ফাইল তৈরিতে সাহায্য করবে। পাশাপাশি আগে থেকে তৈরী করা ফাইল এর মেইন্টেইনেন্স এবং প্রয়োজনীয় সময়ে আপডেট এ সাহায্য করবে।

Monjirul

I am passionate about content publishing in Blogger and WordPress. I am working on many blogs. But Travel Nature Exhibition is my favorite one. The website address is travelnature.info

Leave a Reply