فایل Robot Txt چیست؟ – کاربرد و نحوه ساخت فایل Robots.Txt

فایل Robot Txt چیست؟ فایلی است برای اطلاع‌رسانی به گوگل جهت ایندکس نکردن بعضی صفحات دلخواه سایت. استفاده از فایل Robots.Txt همیشه لازم نیست. اما درصورت ایجاد فایل Robot Txt به دستورات آن باید دقت کرد تا به درستی نوشته شده باشند.

راه‌های دیگری نیز برای جلوگیری از ایندکس صفحات، وجود دارد. استفاده از فایل Robots.Txt (استفاده به جا) در سئو سایت تاثیر دارد. پس با سئوف همراه باشید تا نکاتی را درباره نحوه ساخت فایل Robot Txt برای شما بیان کنیم.

این مقاله بخشی از دوره رایگان آموزش سئو است که با کلیک روی لینک آن می‌توانید به سرفصل مطالب دسترسی داشته باشید.

فایل Robot txt چیست؟

فایل Robots.Txt فایلی است که به کراولرهای موتور جستجو می‌گوید صفحات خاصی از یک وب‌سایت را کراول نکنند. اکثر موتورهای جستجو (شامل گوگل، بینگ و یاهو) درخواست‌های فایل Robots.Txt را تشخیص داده و به آنها احترام می‌گذارند. در صورتی که موتور جستسجو صفحه خاصی از وب سایت ما را کراول نکند، صفحه مورد نظر ایندکس نمی‌شود. ایندکس شدن یعنی چه ممکن است برای شما جالب باشد.

کاربرد فایل Robot txt

ربات‌های گوگل مدام به سایتهای مختلف سر می‌زنند و آنها را کراول می‌کنند. رباتها وظیفه دارند محتواها را بررسی کنند و آنها را ایندکس کنند. سپس با رتبه‌بندی صفحات، آنها را در صفحات نتایج جستجو نمایش دهند.

رباتها قبل از اینکه سایت را بررسی کنند باید اجازه دسترسی به بخشهای مختلف را داشته باشند. اگر وبمستر سایت بخواهد اجازه دسترسی به یک محتوا را ندهد آنرا در فایل Robot txt اعلام می‌کند. قبل از اینکه ربات شروع به کراول سایت کند ابتدا این فایل را می‌خواند. ربات، صفحاتی که در این فایل اعلام شده‌اند را بررسی نمی‌کند.

خوب حالا سوالی که احتمالا برایتان پیش آمده این است که چرا ما نخواهیم بعضی صفحات کراول شوند!؟!؟

جواب این سوال حالات مختلفی را شامل می‌شود. برای مثال ممکن است محتوای تکراری یا مشابه روی سایتتان داشته باشید. البته معمولا محتوای تکراری را با تگ کانونیکال اعلام می‌کنیم. یعنی مشخص می‌کنیم که کدام صفحه نسخه اصلی و کدامها کپی هستند. اما اگر بخواهیم کلا یک صفحه کراول نشود از فایل ربات استفاده می‌کنیم.

حالت دیگر زمانی است که یک صفحه اصلا نیازی به کراول شدن ندارد. مثلا یک صفحه درباره پروفایل مدیریت. یا حالتی که خودمان نمیخواهیم صفحه‌ای مورد بررسی قرار گیرد. مثلا زمانیکه در داخل صفحه محتوای مناسبی نداریم یا اینکه آن صفحه از کیفیت پایینی برخوردار است.

کاربرد فایل robot txt
فایل Robot txt به کارولرها می‌گوید این صفحات را بررسی نکنید.

در هر صورت یک نکته را باید در نظر داشته باشید. اگر بخواهید یک صفحه در نتایج گوگل نمایش داده نشود و از نتایج حذف شود، استفاده از فایل ربات گزینه مناسبی نیست. چرا؟

چون این فایل فقط مانع کراول شدن صفحه می‌شود. اگر از صفحات دیگر سایت لینک داخلی به آن صفحه ساخته شده باشد باعث ایندکس شدن آن صفحه می‌شود. همچنین بک لینک از طرف سایت‌های دیگر نیز باعث ایندکس شدن و قرار گرفتن صفحه در نتایج جستجو می‌شود.

چرا فایل Robot txt مهم است؟

بیشتر سایت‌ها نیازی به فایل ربات ندارند. به این دلیل که گوگل معمولا می‌تواند همه صفحات مهم روی سایت شما را پیدا کرده و ایندکس کند. و بطور خودکار صفحاتی را که مهم نیستند و یا نسخه تکراری سایر صفحات هستند (محتواهای تکراری) ایندکس نخواهد کرد.

محتواهای تکراری روی سئو سایت تاثیر منفی دارند. چون ربات گوگل را سردرگم می‌کنند، درحالیکه باید یکی از نسخه‌ها را بعنوان نسخه اصلی در نظر بگیرد.

برای اینکه بدانید چه محتوایی از نظر سئو خوب است می‌توانید آموزش تولید محتوای سئوشده را مطالعه نمایید.

3 دلیل اصلی استفاده از فایل Robots.Txt

استفاده از فایل Robots.Txt در بعضی موارد لازم است و در بعضی موارد نیازی به آن نیست. اما در 3 حالت بهتر است حتما از آن استفاده کنید. این سه حالت عبارتند از :

بلاک کردن صفحات غیرعمومی

گاهی شما صفحاتی روی سایتتان دارید که نمی‌خواهید ایندکس شوند. برای مثال، ممکن است یک نسخه نمایشی از یک صفحه داشته باشید. یا یک صفحه لاگین. وجود این صفحات الزامی است. اما شما دوست ندارید افراد مختلف بصورت تصادفی به آنها دسترسی داشته باشند یا واردشان شوند. راهنمای کامل چه صفحاتی باید نوایندکس شوند.

این حالتی است که استفاده از فایل Robot Txt توصیه می‌شود. تا بتوان آن صفحات را برای کراولرها و ربات‌های موتور جستجو بلاک کرد.

بیشینه کردن بودجه خزش

اگر شما برای ایندکس کردن صفحاتتان با مشکل مواجه هستید، احتمالا مشکلی در بودجه خزش (Crawl Budget) دارید. با بلاک کردن صفحات غیرمهم بوسیله فایل Robots.Txt، ربات‌های گوگل می‌توانند بیشتر نرخ خزش را برای صفحاتی که واقعا مهم هستند صرف کنند.

جلوگیری از ایندکس منابع

Meta Directive‌ها یا متاتگ‌ها هم می‌توانند مانند Robots.Txt برای جلوگیری از ایندکس بعضی صفحات بکار روند. هرچند که متاتگ‌ها درمورد منابع چندرسانه‌ای مانند پی دی اف یا عکس به خوبی کار نمی‌کنند. اینجاست که فایل Robot Txt وارد می‌شود.

در کل باید گفت وظیفه فایل‌های Robots.Txt جلوگیری از ایندکس برخی صفحات خاص توسط کراولرهای گوگل است.

می‌توانید با مراجعه به کنسول جستجوی گوگل (Google Search Console) تعداد صفحات ایندکس‌شده سایتتان را ببینید.

فایل robots txt مانع کراول میشود
صفحات ایندکس شده در سرچ کنسول – برای اینکه بعضی صفحات کراول نشوند از فایل Robot Txt استفاده کنید

اگر تعداد صفحات ایندکس‌شده با تعداد صفحاتی که شما می‌خواستید ایندکس شوند خوانایی دارند دیگر نیازی نیست که Robots.Txt به زحمت بیفتد. اما اگر تعداد ایندکس‌شده‌ها بیشتر از تعداد مورد انتظار باشد (و متوجه URL‌هایی شوید که نباید ایندکس می‌شدند)، در آنصورت باید برای ساخت فایل Robots.Txt برای سایتتان اقدام کنید.

گام‌های مهم در استفاده از فایل Robots.tx

در این بخش نحوه ایجاد و استفاده از فایل‌های Robot.txt را قدم به قدم شرح می‌دهیم.

ساخت فایل Robots.tx

گام اول شما ایجاد فایل Robots.Txt واقعی است. برای ساخت فایل Robots.Txt می‌توانید از Notepad در ویندوز استفاده کنید. چرا که این فایل یک فایل متنی است.

ساخت فایل robot txt
مثالی کلی از نحوه ساخت فایل Robot txt

در نهایت فرقی نمی‌کند که ساخت فایل Robots.Txt چطور انجام شده باشد. چون قالب یا فرمت همان است و فرقی نخواهد داشت:

user-agent : X

disallow : Y

user-agent ربات خاصی است درحال صحبت با آن هستید. و هرچیزیکه بعد از disallow صفحات یا بخش‌هایی هستند که می‌خواهید بلاک کنید.

مثالی را ببینید:

user-agent : googlebot

disallow : /images

این دستور به ربات گوگل می‌‌‌‌‌‌‌‌‌‌گوید که پوشه تصاویر سایت را ایندکس نکند.

همچنین می‌توانید از یک علامت ستاره (*) برای صحبت کردن با هرکدام از ربات‌هایی که به سایت شما سر می‌زنند استفاده کنید. علامت “*” به هرکدام و همه کراولرها می‌گوید که فایل تصاویر شما را کراول نکنند.

این فقط یکی از چندین راه استفاده از فایل Robots.Txt است. راهنمای گوگل در این باره بسیار مفید است و اطلاعات بیشتری به شما می‌دهد. با کمک این راهنما می‌توانید دستورات فایل Robots.Txt را یاد بگیرید. و برای بلاک کردن یا اجازه‌دادن به ربات‌ها جهت کراول کردن صفحات سایتتان از آنها استفاده کنید.

راهنمای گوگل درباره دستورات فایل robots.txt
راهنمای گوگل درباره دستورات فایل robots.txt

قراردادن فایل Robots.Txt درجای مناسب جهت پیداکردن راحت

بعد از ایجاد فایل Robots.Txt، وقت آن است که آنرا راه‌اندازی کنید. می‌توانید فایل Robots.Txt را در هرکدام از دایرکتوری‌های (مسیرها) اصلی سایت خود قرار دهید. اما برای اینکه شانس پیداشدن فایل Robots.Txt را افزایش دهید بهتر است آنرا در مسیر زیر قرار دهید :

https://example.com/robots.txt

توجه داشته باشید که فایل Robots.Txt به حروف بزرگ و کوچک حساس است. پس همیشه در نام فایل خود از حروف کوچک استفاده کنید.

بررسی خطاها و اشتباهات

اینکه فایل Robots.Txt شما به درستی تنظیم و راه‌اندازی شده باشد واقعا مهم است. یک اشتباه کافی است تا کل سایت شما از ایندکس‌ گوگل حذف شود.

خوشبختانه نیازی نیست که از بابت راه‌اندازی و تنظیم صحیح کدها نگران باشید. گوگل یک ابزار جالب برای تست ربات‌ها دارد که در تصویر زیر مشاهده می‌نمایید:

دستورات فایل robot txt
نمونه‌ای از دستورات فایل Robots.txt

این ابزار دستورات فایل Robots.Txt شما را به‌همراه هر خطا یا هشداری که در فایل پیدا کند نشان می‌دهد.

تست فایل robots.txt
خطا و هشدار در تست فایل Robot.txt

همانطور که مشخص است در مثالی که در تصویر قبل نشان داده شده، کراولرها از کراول‌کردن صفحه WP Admin بلاک شده‌اند. همچنین از فایل Robots.Txt استفاده شده تا از کراول شدن صفحات تگی که وردپرس بصورت خودکار ایجاد می‌کند جلوگیری شود.

فایل Robots.Txt در مقایسه با Meta Directive‌ ها

چرا استفاده از فایل Robots.Txt برای بلاک کردن بعضی صفحات در مقابل ایندکس شدن ارجحیت دارد؟ در حالیکه می‌توان از متاتگ Noindex در سطح Page استفاده کرد؟ قبلا هم در این مقاله اشاره کردیم که تگ Noindex برای منابع چندرسانه‌ای، مانند ویدئوها و پی دی اف‌ها ممکن است مشکل‌ساز شود.

همچنین، اگر هزاران صفحه برای بلاک کردن داشته باشید، گاهی راحتتر این است که کل آن بخش را با یک فایل Robots.Txt بلاک کنید تا آنکه بخواهید بصورت دستی به هر کدام از صفحات یک تگ Noindex اضافه کنید.

همچنین حالت‌های مرزی هم وجود دارند که شما نمی‌خواهید نرخ خزش خود را برای کراول کردن صفحاتی با تگ Noindex هدر بدهید.

سخن آخر

در مجموع باید گفت خارج از آن سه حالت مرزی که در ابتدا اشاره کردیم، توصیه می‌شود از متاتگ (Meta Directive) بجای Robots.Txt استفاده شود. چرا که پیاده‌سازی آنها راحت‌تر است. و احتمال وقوع فاجعه (مثلا بلاک شدن کل سایت) کمتر است.

فایل Robot txt برای همه سایتها مورد نیاز نیست. گاهی نیز با سایر روشها می‌توان مشکل را راحتتر حل کرد. با ریسک کمتر! مثلا برای محتوای تکراری می‌توان از کانونیکال استفاده کرد. در هر صورت اگر مجبور به استفاده از فایل ربات شدید حتما با دقت زیادی این کار را انجام دهید تا مشکلی برای سایت پیش نیاید.

سپاس از همراهی شما.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.