فایل Robots.txt چیست؟
فایل Robots.txt چیست؟شما به عنوان یک سئوکار خوب میدانید که فقط کاربران به سایت شما سر نمیزنند چرا که رباتهای گوگل هم در زمانهای متفاوتی به سایت شما رجوع میکنند و سایت شما را کشف میکنند که به این عمل گوگل crawl میگویند. در حقیقت اگر بخواهم از رفتار گوگل و مراحلی که برای index کردن سایت شما طی میکند بگویم اینست که در مرحله اول Discovey میکند یعنی عمل فهمیدن، سپس شروع به خواندن سایت ، عمل crawl میکند. اما این همه ماجرا نیست بلکه گوگل پس از این مراحل شروع به fetch کردن دادههای سایت شما میکند. همان عمل دریافت کردن که از ابزار سرچ کنسول سئوکاران کمک میگیرند و در آخر هم سایت index میشود.
Discovery > crawl > fetch > index
فایل ربات
فایل ربات یک فایل از نوع متن است که تعیین کننده خواندن و ایندکس کردن صفحات سایت شما، برای رباتهای گوگل است. یعنی به خزندههای گوگل راهنمایی میرساند که چطور در سایت گردش کنند. این فایل متنی، از پروتکل REF یا Robots Exclusion Protocol ساخته شده که جالب است بدانید که لینکهای follow و nofollow هم زیر دسته همین پروتکل هستند. به طور خلاصه و شفاف اگر بخواهیم این فایل را توضیح دهیم میگوییم که یک دستور نامه اجازه بررسی رباتهای گوگل است که کدام صفحات را بخوانند و کدام صفحات را نه! در ادامه مقاله فایل Robots.txt چیست؟ با هورتاش وب همراه باشید تا جزئیات بیشتری را در اختیار داشته باشید.
انواع ربات گوگل
گوگل جان دوست داشتنی یک تعدادی ربات دارد که به شکل خودکار وظیفه بررسی سایت را دارند و صفحات سلیا شما را با دنبال کردن لینکهای داخلی پیدا میکنند.
اما مهم ترین رباتهای گوگل کدامها هستند؟
- Googlebot : این ربات وظیفه کرال و ایندکس کردن صفحات سایت شما را دارد.و از دو نوع Desktop و Smartphone تشکیل شده است.
- Googlebot News : این ربات سایتهای خبری را ایندکس مینماید.
- Googlebot Image : رباتی که وطیفه اش ایندکس کردن تصاویر یک سایت میباشد.
- Googlebot Video : رباتی که وظیفش بررسی ویدیوهای سایت شما میباشد.
- AdSense : رباتی برای چک کردن صفحهها با هدف نمایش تبلغات مرتبط میباشد.
این رباتها را شما میتوانید چک نمایید و اجازه و دسترسیهای آنها را کنترل نمایید.
ساخت فایل Robots.txt
ساخت فایل Robot.txt اصلا کار سختی نمیباشد، کافی است یک فایل متنی ایجاد نمایید.یک ویرایشگر متن ساده مانند نوت پد کافی است. حال یک برگه خالی ایجاد نمایید و نام آنرا robots.txt بزنید.حال وارد سی پنل یا دایرکت ادمین خود شوید و وارد قسمت public_html شوید . حال کافیست فایلی را که ساختید را اینجا آپلود نمایید. اما اینکه داخل این فایل چه مواردی را بنویسید با ماهمراه باشید. جا دارد یک نکته یی را به شما اینجا عرض کنم آن هم اینست که لطفا دسترسی به این فایل را برای ادمینهای سایتتان محدود کنید چرا که کوچکترین ادیت غیر تخصصی ای سایت شما را نابود میکند.
اما سوال اینجاست فایل ساخته شده را چگونه چک نماییم؟
کافیست آدرس سایت مدنظرتان را در سرچ موتور جستجو تایپ نمایید و به انتهای آن robots.txt/ را اضافه نمایید. مانند:
hortashweb.org/robots.txt
برای اضافه کردن دستور به فایل ربات سایت خود تنها کافیست در قسمت روت سی پنل خود این فایل را بیابید و و ادیت بزنید. و ذخیره نمایید.
دلایل استفاده از فایل Robot.txt
مدیریت و کنترل سطح دسترسی موتورهای جستجو از مهم ترین دلایل استفاده از فایل ربات میباشد. در صورتی که مدیر یک سایت در تلاش باشد صفحهای جدید را درسایت خود منتشر کند و این صفحه یک تعدادی از موارد ضروری سئو را زیر سوال ببرد، حتما موظف است از دستورات وارده در فایل Robots.txt استفاده نماید. و همینطور اینکه شما میتوانید با این فایل از ایندکس شدن صفحات غیر مهم در سایتتان جلوگیری نمایید. این عملکرد، تاثیر بسزایی در سئوی سایت شما دارد و تنها صفحات معتبر را در دسترس گوگل و کاربران قرار میدهد. دومین تاثیر مهم این فایل در سئوی سایتها بیشترین استفاده از بودجه خزش یا همان کرال بادجت (Crawl Budget) میباشد. اما منظور از بودجه خزش ، تعداد صفحاتی از سایت هستند که گول در طول یک بازه زمانی مثلا بازه یک روزه یا یک ماهه به ایندکس شدن آنها میپردازد.
اما نرخ پرش هر سایت برچه اساسی میباشد؟ در ادامه به پاسخ این سوال و پاسخ فایل Robots.txt چیست؟ میپردازیم.
میزان وسعت سایت ، میزان بازدید روزانه ، و تعداد لینکهای سایت مدنظر. هرچه کرال باجت یک سایتی بیشتر باشد، دارای رتبه بهتری در سرپ گوگل میباشد. پس بااستفاده از فابل ربات سایتتان ،صفحات مهم را بهینه نمایید و اجازه دسترسی به گوگل را بدهید. اما اینکه چه تعداد ربات هم به سایت شما سر بزنند مهم است که چندتا ربات اطلاعات سایت شما را برای گوگل جان میبرند که این خود یک عمل بهینه سازی برای سایت میباشد. پس از محدود کردن رباتها غافل نشوید. زیرا اگر تعداد حضور آنها در سایت شما زیاد باشد، سرعت سایتتان افت میکند. سرعت که کم باشد هم کاربران و هم خود گوگل را از دست میدهید. مدیریت URL های سایت و لینکهای سایتتان را هم با فایل ربات میتوانید انجام دهید. یکی از فنون سئو مبحث URL Cloacking است برای پنهان کردن آدرس صفحات سایت از دید موتور جستجو استفاده میشود. البته اگر هنوز یک سئوکار حرفه ای نیستید این مورد را انجام ندهید. زیرا که این مدل خود یک عمل سئوی کلاه سیاه میباشد و اگر متخصصانه انجام نشود حسابی باخت میدهید. البته پس از یک مدتی میتوانید تغییر ایجاد نمایید. اگر دوست دارید راجب سئوی کلاه سیاه بخوانید حتما از مقاله هورتاش با هنوان سئو کلاه سیاه چیست بازدید نمایید.
دستورات فایل robots.txt
اگر هنوز هم براتون این سوال است که فایل Robots.txt چیست؟در ادامه تمامی دستورات حائز اهمیت این فایل را ذکر میکنیم.
- user-agent : این مورد در کنار یکی از سه دستور بعدی قرار میگیرد و نوع رباتی که قرار است از دستورات پیروی کند را مشخص مینماید. اگر شما بخواهید برای رباتهای گوگل دستوری را بنویسید باید نام ربات مدنظرتان را یادداشت نمایید یا اگر منظورتان تمام رباتهاست تنها کافیست بعد این دستور علامت * را بنویسید.
- allow : این دستور به معنای اجازه دادن میباشد. و به رباتهای گوگل این اجازه را میدهد در صفحاتی که در مقابل این دستور نوشته شده جستجو نمایند. البته که خیلی هم نوشتن این قطعه خط الزامی ندارد. به این دلیل که رباتهای گوگل به صورت خودکار تمام صفحات گوگل را میخوانند. اما خیلی سئوکاران برای محکم کاری این خط را در فایل ربات خود قید میکنند.
- disallow: این مورد هم به معنای اجازه ندادن است. صفحاتی که ربات مدنظرتان نباید کرول کند. در این قطعه خط نباید روت دامین نوشته شود. و اگر قصد دارید چند صفحه را disallow کنید،طبق قطعه کد زیر عمل نمایید.
User-agent: *
Disallow: /products/content/
Disallow: /local/enterprise/confirm/
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*
- crawl-delay : دستوری که برای رباتهای گوگل اصلا اهمیتی ندارد اما خیلی از دوستان سئوکار یک عدد را در مقابل این دستور مینویسند و این عدد هم نسان دهنده مقدار ثانیهای است که رباتها باید صبر کنند و سپس سایت را بررسی نمایند. و سرعت سایت هم بدلیل ورودی زیاد خزندهها کاهش پیدا نمیکند.
- sitemap: این دستور بشدت مهم و تاثیرگذار در سئوی وب سایت شما میباشد. و شما باید آدرس سایت مپ خود را وارد نمایید.
فایل ربات چگونه کار میکند؟
رباتهای گوگل لینکها را دنبال مینمایند. اگر سایتی به سایت دیگری لینک داده شود ، رباتها آن لینکها را پیدا کرده و به سایت جدید میروند. اما قبل از رفتن در آغاز فایل robots.txt را میخوانند. اگر این فایل وجود داشته باشد که چه عالی و از آن پیروی میکنند و اگر نه تمام سایت را میخوانند. . انرژی موتور جستجو الکی به هدر میرود.اما شاید برای شما جالب باشد که فایل ربات با این اوصاف چه محدودیتهایی را دارد؟
- دستورات غیر یکسان برای موتورهای جستجو متفاوت : دستورات در فایل Robots.txt برای همه موتورهای جستجو یکجور نمیباشند. اینکه رباتها از این دستورات استفاده نمایند یا خیر بسته به نوع دستورالعمل آن موتور جستجو میباشد. مثلا در گوگل به یک شکل میباشد در یاندکس به شکل دیگری. راهکار : دستورالعمل هر موتور جستجو را جدا مطالعه نمایید تا تسلط کافی را برای فایل ربات نوشتن بدست آورید.
- درک متفاوت هر ربات از دستورات : امکان دارد مثلا ربات موبایل با ربات ویدیو هر دستور را به شکلی درک نماید.یکی یک دستور را درک نماید ولی دیگری یه هیچ وجه.
- ایندکس شدن صفحات حتی در صورت اجازه ندادن: اگر اجازه دسترسی را بواسطه فایل ربات ندهیم، باز هم این امکان وجود دارد که گوگل آنرا ایندکس نماید.که این مورد به واسطه لینکهای دریافتی و یا به صورت مستقیم بااستفاده از سایت مپ دریافت مینماید.
نتیجه گیری : در این مقاله به پاسخ عنوان فایل Robots.txt چیست؟ پرداختیم. شما حتما باید در سایتتان فایل ربات را داشته باشد. برای دریافت مشاوره در نحوه ساخت فایل ربات با هورتاش وب در تماس باشید. در خدمت شما هستیم.
مطالب زیر را حتما مطالعه کنید
2 دیدگاه
به گفتگوی ما بپیوندید و دیدگاه خود را با ما در میان بگذارید.
سلام و عرض ادب
مطالب شما بسیار مفید و کارآمد بود. از خدمتتون یک سوال داشتم.
من سایتم صفحه اول لینک اول بود. منتها داخل فایل ربات سایت مپ را پاک کردم. سایتم متاسفانه رفت صفحه دوم . آیا ممکن است سایت مپ انقدر تاثیرگذار باشد ؟
سلام. من میخواستم در فایل robot.txt در قسمت disallow صفحاتی خاص رو ربات ها نخونن باید چکار کنم؟
ممنون از مطالب مفید و به روز ساییتتون.