فایل Robot Txt چیست؟ – کاربرد و نحوه ساخت فایل Robots.Txt
فایل Robot Txt چیست؟ فایلی است برای اطلاعرسانی به گوگل جهت ایندکس نکردن بعضی صفحات دلخواه سایت. استفاده از فایل Robots.Txt همیشه لازم نیست. اما درصورت ایجاد فایل Robot Txt به دستورات آن باید دقت کرد تا به درستی نوشته شده باشند.
راههای دیگری نیز برای جلوگیری از ایندکس صفحات، وجود دارد. استفاده از فایل Robots.Txt (استفاده به جا) در سئو سایت تاثیر دارد. پس با سئوف همراه باشید تا نکاتی را درباره نحوه ساخت فایل Robot Txt برای شما بیان کنیم.
این مقاله بخشی از دوره رایگان آموزش سئو است که با کلیک روی لینک آن میتوانید به سرفصل مطالب دسترسی داشته باشید.
فایل Robot txt چیست؟
فایل Robots.Txt فایلی است که به کراولرهای موتور جستجو میگوید صفحات خاصی از یک وبسایت را کراول نکنند. اکثر موتورهای جستجو (شامل گوگل، بینگ و یاهو) درخواستهای فایل Robots.Txt را تشخیص داده و به آنها احترام میگذارند. در صورتی که موتور جستسجو صفحه خاصی از وب سایت ما را کراول نکند، صفحه مورد نظر ایندکس نمیشود.
کاربرد فایل Robot txt
رباتهای گوگل مدام به سایتهای مختلف سر میزنند و آنها را کراول میکنند. رباتها وظیفه دارند محتواها را بررسی کنند و آنها را ایندکس کنند. سپس با رتبهبندی صفحات، آنها را در صفحات نتایج جستجو نمایش دهند.
رباتها قبل از اینکه سایت را بررسی کنند باید اجازه دسترسی به بخشهای مختلف را داشته باشند. اگر وبمستر سایت بخواهد اجازه دسترسی به یک محتوا را ندهد آن را در فایل Robot txt اعلام میکند. قبل از اینکه ربات شروع به کراول سایت کند ابتدا این فایل را میخواند. ربات، صفحاتی که در این فایل اعلام شدهاند را بررسی نمیکند.
خوب حالا سوالی که احتمالا برایتان پیش آمده این است که چرا ما نخواهیم بعضی صفحات کراول شوند!؟!؟
جواب این سوال حالات مختلفی را شامل میشود. برای مثال ممکن است محتوای تکراری یا مشابه روی سایتتان داشته باشید. البته معمولا محتوای تکراری را با تگ کنونیکال اعلام میکنیم. یعنی مشخص میکنیم که کدام صفحه نسخه اصلی و کدامها کپی هستند. اما اگر بخواهیم کلا یک صفحه کراول نشود از فایل ربات استفاده میکنیم.
حالت دیگر زمانی است که یک صفحه اصلا نیازی به کراول شدن ندارد. مثلا یک صفحه درباره پروفایل مدیریت. یا حالتی که خودمان نمیخواهیم صفحهای مورد بررسی قرار گیرد. مثلا زمانیکه در داخل صفحه محتوای مناسبی نداریم یا اینکه آن صفحه از کیفیت پایینی برخوردار است.
در هر صورت یک نکته را باید در نظر داشته باشید. اگر بخواهید یک صفحه در نتایج گوگل نمایش داده نشود و از نتایج حذف شود، استفاده از فایل ربات گزینه مناسبی نیست. چرا؟
چون این فایل فقط مانع کراول شدن صفحه میشود. اگر از صفحات دیگر سایت لینک داخلی به آن صفحه ساخته شده باشد باعث ایندکس شدن آن صفحه میشود. همچنین بک لینک از طرف سایتهای دیگر نیز باعث ایندکس شدن و قرار گرفتن صفحه در نتایج جستجو میشود.
چرا فایل Robot txt مهم است؟
بیشتر سایتها نیازی به فایل ربات ندارند. به این دلیل که گوگل معمولا میتواند همه صفحات مهم روی سایت شما را پیدا کرده و ایندکس کند. و بطور خودکار صفحاتی را که مهم نیستند و یا نسخه تکراری سایر صفحات هستند (محتواهای تکراری) ایندکس نخواهد کرد.
محتواهای تکراری روی سئو سایت تاثیر منفی دارند. چون ربات گوگل را سردرگم میکنند، درحالیکه باید یکی از نسخهها را بعنوان نسخه اصلی در نظر بگیرد.
برای اینکه بدانید چه محتوایی از نظر سئو خوب است میتوانید آموزش تولید محتوای سئوشده را مطالعه نمایید.
3 دلیل اصلی استفاده از فایل Robots.Txt
استفاده از فایل Robots.Txt در بعضی موارد لازم است و در بعضی موارد نیازی به آن نیست. اما در 3 حالت بهتر است حتما از آن استفاده کنید. این سه حالت عبارتند از :
بلاک کردن صفحات غیرعمومی
گاهی شما صفحاتی روی سایتتان دارید که نمیخواهید ایندکس شوند. برای مثال، ممکن است یک نسخه نمایشی از یک صفحه داشته باشید. یا یک صفحه لاگین. وجود این صفحات الزامی است. اما شما دوست ندارید افراد مختلف بصورت تصادفی به آنها دسترسی داشته باشند یا واردشان شوند. راهنمای کامل چه صفحاتی باید نوایندکس شوند.
این حالتی است که استفاده از فایل Robot Txt توصیه میشود. تا بتوان آن صفحات را برای کراولرها و رباتهای موتور جستجو بلاک کرد.
بیشینه کردن بودجه خزش
اگر شما برای ایندکس کردن صفحاتتان با مشکل مواجه هستید، احتمالا مشکلی در بودجه خزش (Crawl Budget) دارید. با بلاک کردن صفحات غیرمهم بوسیله فایل Robots.Txt، رباتهای گوگل میتوانند بیشتر نرخ خزش را برای صفحاتی که واقعا مهم هستند صرف کنند.
جلوگیری از ایندکس منابع
Meta Directiveها یا متاتگها هم میتوانند مانند Robots.Txt برای جلوگیری از ایندکس بعضی صفحات بکار روند. هرچند که متاتگها درمورد منابع چندرسانهای مانند پی دی اف یا عکس به خوبی کار نمیکنند. اینجاست که فایل Robot Txt وارد میشود.
در کل باید گفت وظیفه فایلهای Robots.Txt جلوگیری از ایندکس برخی صفحات خاص توسط کراولرهای گوگل است.
میتوانید با مراجعه به کنسول جستجوی گوگل (Google Search Console) تعداد صفحات ایندکسشده سایتتان را ببینید.
اگر تعداد صفحات ایندکسشده با تعداد صفحاتی که شما میخواستید ایندکس شوند خوانایی دارند دیگر نیازی نیست که Robots.Txt به زحمت بیفتد. اما اگر تعداد ایندکسشدهها بیشتر از تعداد مورد انتظار باشد (و متوجه URLهایی شوید که نباید ایندکس میشدند)، در آنصورت باید برای ساخت فایل Robots.Txt برای سایتتان اقدام کنید.
گامهای مهم در استفاده از فایل Robots.tx
در این بخش نحوه ایجاد و استفاده از فایلهای Robot.txt را قدم به قدم شرح میدهیم.
ساخت فایل Robots.tx
گام اول شما ایجاد فایل Robots.Txt واقعی است. برای ساخت فایل Robots.Txt میتوانید از Notepad در ویندوز استفاده کنید. چرا که این فایل یک فایل متنی است.
در نهایت فرقی نمیکند که ساخت فایل Robots.Txt چطور انجام شده باشد. چون قالب یا فرمت همان است و فرقی نخواهد داشت:
user-agent : X
disallow : Y
user-agent ربات خاصی است درحال صحبت با آن هستید. و هرچیزیکه بعد از disallow صفحات یا بخشهایی هستند که میخواهید بلاک کنید.
مثالی را ببینید:
user-agent : googlebot
disallow : /images
این دستور به ربات گوگل میگوید که پوشه تصاویر سایت را ایندکس نکند.
همچنین میتوانید از یک علامت ستاره (*) برای صحبت کردن با هرکدام از رباتهایی که به سایت شما سر میزنند استفاده کنید. علامت “*” به هرکدام و همه کراولرها میگوید که فایل تصاویر شما را کراول نکنند.
این فقط یکی از چندین راه استفاده از فایل Robots.Txt است. راهنمای گوگل در این باره بسیار مفید است و اطلاعات بیشتری به شما میدهد. با کمک این راهنما میتوانید دستورات فایل Robots.Txt را یاد بگیرید. و برای بلاک کردن یا اجازهدادن به رباتها جهت کراول کردن صفحات سایتتان از آنها استفاده کنید.
قراردادن فایل Robots.Txt درجای مناسب جهت پیداکردن راحت
بعد از ایجاد فایل Robots.Txt، وقت آن است که آنرا راهاندازی کنید. میتوانید فایل Robots.Txt را در هرکدام از دایرکتوریهای (مسیرها) اصلی سایت خود قرار دهید. اما برای اینکه شانس پیداشدن فایل Robots.Txt را افزایش دهید بهتر است آنرا در مسیر زیر قرار دهید :
https://example.com/robots.txt
توجه داشته باشید که فایل Robots.Txt به حروف بزرگ و کوچک حساس است. پس همیشه در نام فایل خود از حروف کوچک استفاده کنید.
بررسی خطاها و اشتباهات
اینکه فایل Robots.Txt شما به درستی تنظیم و راهاندازی شده باشد واقعا مهم است. یک اشتباه کافی است تا کل سایت شما از ایندکس گوگل حذف شود.
خوشبختانه نیازی نیست که از بابت راهاندازی و تنظیم صحیح کدها نگران باشید. گوگل یک ابزار جالب برای تست رباتها دارد که در تصویر زیر مشاهده مینمایید:
این ابزار دستورات فایل Robots.Txt شما را بههمراه هر خطا یا هشداری که در فایل پیدا کند نشان میدهد.
همانطور که مشخص است در مثالی که در تصویر قبل نشان داده شده، کراولرها از کراولکردن صفحه WP Admin بلاک شدهاند. همچنین از فایل Robots.Txt استفاده شده تا از کراول شدن صفحات تگی که وردپرس بصورت خودکار ایجاد میکند جلوگیری شود.
فایل Robots.Txt در مقایسه با Meta Directive ها
چرا استفاده از فایل Robots.Txt برای بلاک کردن بعضی صفحات در مقابل ایندکس شدن ارجحیت دارد؟ در حالیکه میتوان از متاتگ Noindex در سطح Page استفاده کرد؟ قبلا هم در این مقاله اشاره کردیم که تگ Noindex برای منابع چندرسانهای، مانند ویدئوها و پی دی افها ممکن است مشکلساز شود.
همچنین، اگر هزاران صفحه برای بلاک کردن داشته باشید، گاهی راحتتر این است که کل آن بخش را با یک فایل Robots.Txt بلاک کنید تا آنکه بخواهید بصورت دستی به هر کدام از صفحات یک تگ Noindex اضافه کنید.
همچنین حالتهای مرزی هم وجود دارند که شما نمیخواهید نرخ خزش خود را برای کراول کردن صفحاتی با تگ Noindex هدر بدهید.
سخن آخر
در مجموع باید گفت خارج از آن سه حالت مرزی که در ابتدا اشاره کردیم، توصیه میشود از متاتگ (Meta Directive) بجای Robots.Txt استفاده شود. چرا که پیادهسازی آنها راحتتر است. و احتمال وقوع فاجعه (مثلا بلاک شدن کل سایت) کمتر است.
فایل Robot txt برای همه سایتها مورد نیاز نیست. گاهی نیز با سایر روشها میتوان مشکل را راحتتر حل کرد. با ریسک کمتر! مثلا برای محتوای تکراری میتوان از کانونیکال استفاده کرد. در هر صورت اگر مجبور به استفاده از فایل ربات شدید حتما با دقت زیادی این کار را انجام دهید تا مشکلی برای سایت پیش نیاید.
سپاس از همراهی شما.