বেসিক টিউটোরিয়ালস
আপনি যদি সার্চ ইঞ্জিনে ভালো র্যাঙ্ক পেতে চান তবে Robots.txt ফাইলটি আপনার সাইটের জন্য গুরুত্বপূর্ণ ভূমিকা পালন করে। কিন্তু অনেক ওয়েবসাইটেই এই ফাইলটি খুজে পাওয়া যায়না কিংবা সঠিকভাবে ফাইলটি ব্যবহার করা হয় না, যা সার্চ ইঞ্জিন অপটিমাইজেশনে কুপ্রভাব ফেলতে পারে।
আপনার ওয়েবসাইটে যদি Robots.txt ফাইলটি না থেকে থাকে তবে যত দ্রুত সম্ভব কিভাবে তা তৈরি করতে হয় তা শিখে নিন। আর যদি ফাইলটি ইতিমধ্যেই আপনার ওয়েবসাইটে বা ব্লগে থেকে থাকে তবে এই পোস্টের টিপসগুলো দিয়ে, সেগুলো ফাইলটিকে আরও কার্যকরী করে তুলুন।
ফাইলটি একটি সাধারণ টেক্সট ফাইল, এতে কোন বিশেষ কোডিং করা হয়নি, এটি আপনার ওয়েবসাইটের রুট ডিরেক্টরতে থাকতে হবে। উদাহরণস্বরূপ -
Robots.txt ফাইলটি এক বা একাধিক রেকর্ডের সমন্বয়ে গঠিত হয়। প্রতিটি রেকর্ড একেকটি সার্চ ইঞ্জিনের জন্য প্রয়োজনীয় তথ্য বহন করে। প্রতিটি রেকর্ডই দু’ভাগে বিভক্ত। যেমনঃ
এভাবে Disallow অপশন ব্যবহারের মাধ্যমে আপনি আপনার ওয়েবসাইটের যেকোনো নির্দিষ্ট ফোল্ডার বা ফাইলকে ইন্ডেক্স করা থেকে বিরত রাখতে পারেন। অনেক সাইটে দেখা যায় যে তারা ডুপ্লিকেট কনটেন্ট এর আশংকা থেকে রেহাই পেতে ইচ্ছে করেই আর্কাইভ ফোল্ডারগুলোকে ইন্ডেক্স করা থেকে বিরত রাখে।
- বেসিক টিউটোরিয়ালস (পার্ট-১) – যেভাবে উইন্ডোজে আইএসও ফাইল(ISO) সিডিতে/ডিভিডিতে রাইট বা বার্ন করবেন…(স্ক্রিনশটসহ টেক্সট টিউটোরিয়ালের পাশাপাশি রয়েছে ভিডিও টিউটোরিয়াল)
- বেসিক টিউটোরিয়ালস (পার্ট-২) কিভাবে অতি সহজে পুরো ডিভিডি বা ডিভিডির দরকারী অংশ ব্যাক আপ নেয়া যায় মাত্র কয়েক মিনিটেই…[স্ক্রিনশটসহ+ভিডিও টিউটোরিয়ালসহ]
- বেসিক টিউটোরিয়ালস (পার্ট-৩) – সার্চ ইঞ্জিন অপটিমাইজেশনে Robots.txt ফাইলের গুরুত্ব এবং তৈরি করার নিয়ম
আপনি যদি সার্চ ইঞ্জিনে ভালো র্যাঙ্ক পেতে চান তবে Robots.txt ফাইলটি আপনার সাইটের জন্য গুরুত্বপূর্ণ ভূমিকা পালন করে। কিন্তু অনেক ওয়েবসাইটেই এই ফাইলটি খুজে পাওয়া যায়না কিংবা সঠিকভাবে ফাইলটি ব্যবহার করা হয় না, যা সার্চ ইঞ্জিন অপটিমাইজেশনে কুপ্রভাব ফেলতে পারে।
আপনার ওয়েবসাইটে যদি Robots.txt ফাইলটি না থেকে থাকে তবে যত দ্রুত সম্ভব কিভাবে তা তৈরি করতে হয় তা শিখে নিন। আর যদি ফাইলটি ইতিমধ্যেই আপনার ওয়েবসাইটে বা ব্লগে থেকে থাকে তবে এই পোস্টের টিপসগুলো দিয়ে, সেগুলো ফাইলটিকে আরও কার্যকরী করে তুলুন।
Robots.txt ফাইলটি কি এবং কেন এটি থাকা উচিৎ?
যখন সার্চ ইঞ্জিনের সার্চবট কিংবা স্পাইডারগুলো আমার ওয়েবসাইটে এসে আপনার পেজগুলোকে ইনডেক্স শুরু করে, তখন Robots.txt ফাইলটি দিক নির্দেশকের কাজ করে। এই ফাইলটি সার্চ ইঞ্জিন থেকে আগত ক্রওলার বা স্পাইডারকে জানাবে কোন পেজগুলো ইন্ডেক্স করতে হবে আর কোন পেজগুলো ইন্ডেক্স করতে হবে না। আপনার ওয়েবসাইটের পেজগুলো ইন্ডেক্স হওয়া বা না হওয়া অনেকটা এর ওপর নির্ভর করবে ।ফাইলটি একটি সাধারণ টেক্সট ফাইল, এতে কোন বিশেষ কোডিং করা হয়নি, এটি আপনার ওয়েবসাইটের রুট ডিরেক্টরতে থাকতে হবে। উদাহরণস্বরূপ -
http://techtunes.com.bd/robots.txt
আমি কিভাবে Robots.txt ফাইলটি তৈরি করবো?
আমি আগেই আপনাদের বলেছি Robots.txt ফাইলটি একটি সাধারণ টেক্সট ফাইল, তাই এটি যদি আপনার ওয়েবসাইটে না থেকে থাকে তবে এটি তৈরি করার জন্য আপনার পছন্দ মত টেক্সট ইডিটর (যেমনঃ নোটপ্যাড) খুলুন।Robots.txt ফাইলটি এক বা একাধিক রেকর্ডের সমন্বয়ে গঠিত হয়। প্রতিটি রেকর্ড একেকটি সার্চ ইঞ্জিনের জন্য প্রয়োজনীয় তথ্য বহন করে। প্রতিটি রেকর্ডই দু’ভাগে বিভক্ত। যেমনঃ
User-agent: googlebot
Disallow: /cgi-bin
এটি যদি Robots.txt ফাইলটিতে লিখে সেভ করা হয় তবে এটি গুগল থেকে আগত বটকে বা স্পাইডারকে আপনার ওয়েবসাইটের সবগুলো পেজ ইন্ডেক্স করার ক্ষমতা দিবে বা অনুমতি দিবে, কিন্তু এটি আপনার রুট ডিরেক্টরিতে থাকা cgi-bin ফোল্ডারের কোন ফাইলকে ইন্ডেক্স করার অনুমতি দিবে না। তার মানে cgi-bin ফোল্ডারটি গুগলবট এড়িয়ে যাবে।এভাবে Disallow অপশন ব্যবহারের মাধ্যমে আপনি আপনার ওয়েবসাইটের যেকোনো নির্দিষ্ট ফোল্ডার বা ফাইলকে ইন্ডেক্স করা থেকে বিরত রাখতে পারেন। অনেক সাইটে দেখা যায় যে তারা ডুপ্লিকেট কনটেন্ট এর আশংকা থেকে রেহাই পেতে ইচ্ছে করেই আর্কাইভ ফোল্ডারগুলোকে ইন্ডেক্স করা থেকে বিরত রাখে।
আমি কোথায় সার্চ ইঞ্জিনগুলোর ইউজার এজেন্ট নাম পাবো?
আপনি এটি আপনার ওয়েবসাইটের লগ ফাইলে পেতে পারেন, তবে আপনি যদি সার্চ ইঞ্জিন থেকে ভালো পরিমাণে ভিজিটর আশা করেন তবে আপনার উচিৎ সব ইউজার এজেন্টকেই সমান অধিকার দেয়া। মানে সব স্পাইডারকেই আপনার ওয়েবসাইট ইন্ডেক্স করতে দেয়া উচিৎ। সেক্ষেত্রে আপনি “User-agent: *” লিখে দিতে পারেন। যেমনঃUser-agent: *
Disallow: /cgi-bin
এতে সব সার্চ ইঞ্জিনই আপনার ওয়েবসাইট ইন্ডেক্স করবে।যে বিষয়গুলো আপনার করা উচিৎ নাঃ
- Robots.txt ফাইলে কমেন্ট ব্যবহার করবেন না, যদিও কমেন্ট ব্যবহার করার অধিকার আপনার আছে, তবুও কমেন্ট ব্যবহার করলে বিভিন্ন সার্চ ইঞ্জিন বট মিস আন্ডারস্ট্যান্ড করতে পারে। ফলে কিছুটা হলে কুপ্রভাব পরবে।
- কোন লাইনের শুরুতে ফাঁকা স্থান রাখবেন না, লেখার সময় কোন অতিরিক্ত স্পেস দিবেন না।এভাবে লিখবেন নাঃ
User-agent: *
এভাবে লিখবেনঃ
Dis allow: /support
User-agent: *
Disallow: /support - কমান্ডের নিয়ম চেঞ্জ করে ওলট-পালট করে লিখবেন না। প্রতিটি কমান্ড সঠিক নিয়মে লিখতে হবে।এভাবে লিখবেন নাঃ
Disallow: /support
এভাবে লিখবেনঃ
User-agent: *
User-agent: *
Disallow: /support - আপনি যদি একই সাথে একাধিক ডিরেক্টরি বা পেজ সার্চ ইঞ্জিনের ইন্ডেক্স করা থেকে মুক্ত রাখতে চান তবে তা একসাথে লিখবেন না, কারণ এতে স্পাইডার বিভ্রান্ত হবে।এভাবে লিখবেন নাঃ
User-agent: *
এভাবে লিখবেনঃ
Disallow: /support /cgi-bin /images/
User-agent: *
Disallow: /support
Disallow: /cgi-bin
Disallow: /images - একটা বিষয়ে আপনার সজাগ থাকতে হবে, ইংরেজীতে যেহেতু ছোট হাতের এবং বড় হাতের[Small Letter and Capital Letter] আছে তাই এক্ষেত্রে সজাগ থাকা আবশ্যক, যেমন ধরুন আপনার ডিরেক্টরির নাম হল “Downloads” কিন্তু আপনি Robots.txt ফাইলে লিখলেন “downloads”. এটি কিন্তু ভুল হিসেবে গণ্য হবে অর্থাৎ আপনাকে ডিরেক্টিরির নাম আপনি যেভাবে দিয়েছেন ঠিক সেভাবেই Robots.txt ফাইলে লিখতে হবে।
- আপনি যদি চান সকল সার্চ ইঞ্জিন আপনার সকল পেজ ইন্ডেক্স করবে তবে Robots.txt ফাইলে এভাবে লিখুনঃ
User-agent: *
Disallow: - আপনি যদি চান যে আপনার ওয়েবসাইটের কোন ফাইলই আমি সার্চ ইঞ্জিনগুলোকে ইন্ডেক্স করতে দেবেন না তবে নিম্নলিখিত কমান্ড ব্যবহার করুনঃ
User-agent: *
Disallow: /
Robots.txt ফাইলের উদাহরণ
আপনি যদি উদাহরণ চান তবে এগুলো দেখতে পারেনঃ- http://www.cnn.com/robots.txt
- http://www.nytimes.com/robots.txt
- http://www.ebay.com/robots.txt
কোন মন্তব্য নেই:
একটি মন্তব্য পোস্ট করুন