فایل robots.txt چیست و چگونه آن را تنظیم کنیم؟

فایل robots.txt چیست و چگونه آن را تنظیم کنیم؟

تاریخ انتشار: 13 آبان 1398

تعداد بازدید: 1376 نفر

فایل Robots.txt یکی از ساده‌ترین فایل‌های یک وب‌سایت است، اما در عین حال یکی از ساده‌ترین را ها برای تخریب سئو سایت است. فقط یک کاراکتر بی جا می تواند سئو شما را خراب کند و موتورهای جستجو را از دسترسی به محتوای مهم سایت شما باز دارد. به همین دلیل است که پیکربندی نادرست robots.txt بسیار رایج است؛ حتی در بین متخصصان باتجربه سئو!
بسته به اندازه وب سایت شما، استفاده نادرست از robots.txt می تواند یک اشتباه جزئی یا بسیار پرهزینه باشد. این مقاله به شما نشان می دهد که چگونه یک فایل robots.txt ایجاد کنید و از اشتباهات احتمالی جلوگیری کنید.
این مقاله از مطالب آموزش سئو مجموعه وب وان است که امیدواریم مورد توجه شما قرار بگیرد.
 

بیشتر بخوانید: سئو چیست؟

فایل robots.txt چیست؟

Robots.txt یک فایل متنی ساده است که می توانید روی سرور خود قرار دهید تا نحوه دسترسی ربات ها به صفحات شما را کنترل کنید. این شامل قوانینی برای خزنده ها است که تعیین می کند کدام صفحات باید خزیده شوند یا نباید خزیده شوند. فایل باید در دایرکتوری ریشه وب سایت شما قرار گیرد. بنابراین، برای مثال، اگر وب سایت شما domain.com نام دارد، فایل robots.txt باید در domain.com/robots.txt باشد.

فایل چگونه robots.txt چگونه کار می کند؟

خزنده ها برنامه هایی هستند که در وب می خزند. آنها کاربردهای مختلفی دارند، اما موتورهای جستجو از آنها برای یافتن محتوای وب برای ایندکس استفاده می کنند. این فرآیند را می توان به چند مرحله تقسیم کرد:
  • خزنده‌ها دارای صفی از URLها هستند که هم وب‌سایت‌های جدید و هم قبلاً شناخته شده‌ای را دارند که می‌خواهند بخزند.
  • قبل از خزیدن یک وب سایت، خزنده ها ابتدا به دنبال فایل robots.txt در دایرکتوری ریشه وب سایت می گردند.
  • اگر هیچ فایل robots.txt وجود نداشته باشد، خزنده ها آزادانه وب سایت را می خزند. با این حال، اگر یک فایل robots.txt معتبر وجود داشته باشد، خزنده‌ها به دنبال دستورالعمل‌ها در داخل آن می‌گردند و بر این اساس به خزیدن وب‌سایت ادامه می‌دهند.
  • اگر یک موتور جستجو نتواند صفحه را بخزد، آن صفحه نمی تواند ایندکس شود و در نتیجه در صفحات نتایج جستجو ظاهر نمی شود.
با این حال، دو نکته وجود دارد:
1. صفحه‌ای که از خزیدن مسدود شده است ممکن است همچنان ایندکس شود

غیرمجاز کردن خزیدن در فایل robots.txt تضمین نمی کند که موتورهای جستجو صفحه را ایندکس نمی کنند. اگر اطلاعاتی در مورد محتوا در منابع دیگر بیابند و تصمیم بگیرند که محتوای مهمی است، همچنان ممکن است این کار را انجام دهند. به عنوان مثال، آنها می توانند پیوندهای منتهی به صفحه را از سایت های دیگر پیدا کنند، از انکر تکست استفاده کنند و آن را در صفحه نتایج جستجو نشان دهند.
2. نمی‌توانید ربات‌ها را مجبور کنید از قوانین موجود در robots.txt پیروی کنند

Robots.txt فقط یک دستورالعمل است، نه یک قانون اجباری. شما نمی توانید ربات ها را مجبور به اطاعت از آن کنید. اکثر خزنده ها، به ویژه آنهایی که توسط موتورهای جستجو استفاده می شوند، هیچ صفحه ای را که توسط robots.txt مسدود شده است، نمی خزند. با این حال، موتورهای جستجو تنها موتورهایی نیستند که از خزنده ها استفاده می کنند. ربات های مخرب ممکن است دستورالعمل ها را نادیده بگیرند و به هر حال به صفحات دسترسی پیدا کنند. به همین دلیل است که نباید از robots.txt به عنوان راهی برای محافظت از داده های حساس وب سایت خود در برابر خزیدن استفاده کنید. اگر باید مطمئن شوید که ربات‌ها برخی از محتوای شما را نمی‌خزند، بهتر است از آن با یک رمز عبور محافظت کنید.


 
قایل robots.txt چیست

چرا به فایل robots.txt نیاز دارید؟

Robots.txt بخش ضروری وب سایت شما نیست، اما یک فایل بهینه سازی شده می تواند از بسیاری جهات برای سایت شما مفید باشد. مهمتر از همه، می تواند به شما کمک کند بودجه خزش خود را بهینه کنید. ربات‌های موتور جستجو منابع محدودی دارند و تعداد URL‌هایی را که می‌توانند در یک وب‌سایت مشخص بخزند محدود می‌کنند. بنابراین اگر بودجه خزیدن خود را در صفحات کم اهمیت هدر دهید، ممکن است صفحات با ارزش تر خزش نشود. اگر وب سایت کوچکی دارید، ممکن است این یک مشکل سطحی به نظر برسد، اما هر کسی که یک وب سایت بزرگ دارد می داند که استفاده بهینه از منابع ربات های موتور جستجو چقدر حیاتی است.
با فایل robots.txt، می توانید از خزیدن برخی صفحات، به عنوان مثال، صفحات با کیفیت پایین جلوگیری کنید. این بسیار مهم است؛ زیرا اگر صفحات قابل ایندکس با کیفیت پایین زیادی دارید، ممکن است بر کل سایت تأثیر بگذارد و ربات های موتورهای جستجو را از خزیدن صفحات با کیفیت بالا منصرف کند.
علاوه بر این، robots.txt به شما امکان می دهد مکان نقشه سایت XML خود را مشخص کنید. نقشه سایت یک فایل متنی است که آدرس‌هایی را که می‌خواهید موتورهای جستجو ایندکس کنند فهرست می‌کند. قرار دادن آدرس آن در فایل robots.txt یافتن آن را برای ربات های موتورهای جستجو آسان تر می کند.

از ایندکس شدن چه صفحاتی باید جلوگیری شود؟

با استفاده از فایل robots.txt میتوان از ایندکس شدن بسیاری از صفحات مانند دسته بندی ها، تگ ها و صفحات خاص جلوگیری کرد. برخی از صفحاتی که باید توسط robots.txt از ایندکس شدن جلوگیری شوند، موارد زیر است.
  • صفحاتی که محتوای تکراری دارند ( duplicate content)
  • تگ ها و برچسب هایی که باعث ایجاد محتوای تکراری و یا اضافه در سایت می شوند
  • فیلتر بندی صفحات محصول که شامل فیلتر های قیمت، رنگ و ... می شوند
  • صفحاتی که با سرچ کردن در خود سایت ایجاد می شوند ( در صورتی که صفحات اصلی و مهم شما توسط کاربران در سایت سرچ نشود)
  • تمامی صفحات ادمین و پنل سایت
  • صفحه پروفایل کاربران سایت
  • صفحات چت
  • برخی از فایل های قالب که نیازی به دیده شدن توسط گوگل ندارند

چگونه فایل robots.txt را تغییر دهیم؟

اینکه چگونه می توانید فایل robots.txt خود را تغییر دهید، به شدت به سیستمی که استفاده می کنید بستگی دارد. اگر از یک CMS یا یک پلتفرم تجارت الکترونیک استفاده می کنید، ممکن است به ابزارها یا افزونه های اختصاصی دسترسی داشته باشید که می توانند به شما کمک کنند به راحتی به فایل دسترسی پیدا کرده و آن را تغییر دهید. برای مثال، Wix و Shopify به شما اجازه می‌دهند که robots.txt را مستقیماً ویرایش کنید. برای وردپرس می توانید از افزونه هایی مانند Yoast SEO استفاده کنید.
اگر از CMS یا پلتفرم تجارت الکترونیک استفاده نمی کنید، ممکن است لازم باشد ابتدا فایل را دانلود کنید، آن را ویرایش کنید و سپس دوباره در سایت خود آپلود کنید.
شما می توانید فایل را به روش های مختلف دانلود کنید:
آدرس domain.com/robots.txt را در مرورگر وارد کنید و بعد از رویت شدن فایل به سادگی محتوا را کپی کنید.
از ابزارهای ارائه شده توسط سرویس میزبانی خود استفاده کنید. به عنوان مثال، ممکن است یک پنل اختصاصی برای مدیریت فایل ها یا دسترسی از طریق پروتکل FTP باشد.
برای دانلود یک کپی از فایل خود از
 Google یا Bing’s robots.txt testers استفاده کنید.
هنگامی که robots.txt را دانلود کردید، به سادگی می توانید آن را در ویرایشگر متن دلخواه خود مانند Notepad (ویندوز) یا TextEdit (مک) ویرایش کنید. مطمئن شوید که فایل را در استاندارد UTF-8 رمزگذاری کرده اید و به یاد داشته باشید که نام آن باید "robots.txt" باشد.
پس از اصلاح robots.txt، می‌توانید فایل را مشابه دانلود آن آپلود کنید. می توانید از ابزارهای اختصاصی ارائه شده توسط هاست خود استفاده کنید، از ابزارهای داخلی CMS استفاده کنید یا فایل ها را مستقیماً توسط پروتکل های FTP به سرور ارسال کنید.
هنگامی که فایل شما در دسترس عموم قرار گرفت، موتورهای جستجو می توانند آن را به طور خودکار پیدا کنند. اگر به دلایلی می‌خواهید موتورهای جستجو فوراً تغییرات را ببینند، از طریق
این لینک گوگل را مطلع کنید.

در طول فرآیند خزیدن خودکار، خزنده‌های Google متوجه تغییراتی می‌شوند که در فایل robots.txt خود ایجاد کرده‌اید و هر 24 ساعت یک بار نسخه کش شده را به‌روزرسانی می‌کنند. اگر نیاز دارید حافظه کش را سریعتر به روز کنید، از robots.txt Tester استفاده کنید.

منبع: google

Robots.txt syntax

Robots.txt از بلوک های متنی تشکیل شده است. هر بلوک با یک رشته User-agent شروع می شود و دستورالعمل ها (قوانین) را برای یک ربات خاص گروه بندی می کند.
در اینجا نمونه ای از فایل robots.txt آمده است:

 

User-agent: *
Disallow: /admin/
Disallow: /users/

#specific instructions for Googlebot
User-agent: Googlebot
Allow: /wp-admin/
Disallow: /users/

#specific instructions for Bingbot
User-agent: Bingbot
Disallow: /admin/
Disallow: /users/
Disallow:/not-for-Bingbot/
Crawl-delay: 10

Sitemap: https://www.example.com/sitemap.xml

جلوگیری از ایندکس فایل ها توسط robots.txt

User-agent

صدها خزنده وجود دارند که ممکن است بخواهند به وب سایت شما دسترسی پیدا کنند. به همین دلیل است که ممکن است بخواهید بر اساس اهداف آنها مرزهای مختلفی برای آنها تعریف کنید. در اینجا زمانی است که User-agent ممکن است مفید باشد.
User-agent رشته ای از متن است که یک ربات خاص را شناسایی می کند. موتورهای جستجو همچنین می توانند بیش از یک User-agent داشته باشند. در
اینجا می توانید لیست کاملی از User-agent های استفاده شده توسط گوگل و بینگ را پیدا کنید.
User-agent یک خط مورد نیاز در هر گروه از دستورالعمل ها است. تمام دستورالعمل‌هایی که از یک User-agent پیروی می‌کنند، تا زمانی که User-agent جدید مشخص نشود، به سمت ربات تعریف‌شده هدایت می‌شوند.

شما همچنین می توانید از یک علامت عام استفاده کنید و به همه ربات ها به طور همزمان دستورالعمل بدهید. User-agent موتورهای جست و جوی معروف عبارتند از:
 
  • google: Googlebot
  • ​yahoo: Slurp
  • bing: Bingbot
  • DuckDuckGo: DuckDuckBot

دستورالعمل ها

دستورالعمل ها قوانینی هستند که شما برای ربات های موتور جستجو تعریف می کنید. هر بلوک متن می تواند یک یا چند دستورالعمل داشته باشد. هر دستورالعمل باید در یک خط جداگانه شروع شود.
بخشنامه ها عبارتند از:
  • Disallow
  • Allow
  • Sitemap
  • Crawl-delay
توجه: همچنین یک دستورالعمل غیر رسمی noindex وجود دارد که قرار است نشان دهد یک صفحه نباید ایندکس شود. با این حال، اکثر موتورهای جستجو، از جمله گوگل و بینگ، از آن پشتیبانی نمی کنند. اگر نمی‌خواهید برخی از صفحات ایندکس شوند، از تگ متا روبات‌های noindex یا هدر X-Robots-Tag استفاده کنید.
 

Disallow

این دستورالعمل مشخص می کند که کدام صفحات نباید خزیده شوند. به طور پیش‌فرض، ربات‌های موتور جستجو می‌توانند هر صفحه‌ای را که توسط دستورالعمل Disallow مسدود نشده است، بخزند. برای مسدود کردن دسترسی به یک صفحه خاص، باید مسیر آن را در رابطه با دایرکتوری ریشه تعریف کنید.
User-agent: Googlebot
Disallow: /users/​
با اضافه کردن نماد "/" به روش زیر می توانید خزیدن  در کل سایت را ممنوع کنید:
User-agent: Googlebot
/ :Disallow

دستورات فایل robots.txt

Allow

شما می توانید از دستورالعمل Allow برای اجازه دادن به خزیدن یک صفحه در یک فهرست غیر مجاز استفاده کنید.
در مثال زیز، تمام صفحات داخل دایرکتوری /user/ غیر مجاز هستند به جز یکی به نام /very-important-user.html.
User-agent: Googlebot
Disallow: /users/
Allow: /users/very-important-user.html

نقشه سایت

دستورالعمل نقشه سایت مکان سایت مپ شما را مشخص می کند. می توانید آن را در ابتدا یا انتهای فایل خود اضافه کنید و بیش از یک نقشه سایت تعریف کنید.
برخلاف مسیرهای تعریف شده در دستورالعمل های دیگر، همیشه یک URL کامل از نقشه سایت خود، از جمله پروتکل HTTP/HTTPS یا نسخه www/non-www اضافه کنید.
دستورالعمل نقشه سایت مورد نیاز نیست، اما به شدت توصیه می شود. حتی اگر نقشه سایت خود را در Google Search Console یا Bing Webmaster Tools ارسال کرده اید، همیشه ایده خوبی است که آن را به فایل robots.txt خود اضافه کنید تا به همه ربات های موتور جستجو کمک کنید سریعتر آن را پیدا کنند.

Crawl-delay

ربات های موتور جستجو می توانند بسیاری از صفحات شما را در مدت زمان کوتاهی بخزند. هر خزیدن، بخشی از منبع سرور شما استفاده می کند.
اگر یک وب سایت بزرگ با صفحات زیاد دارید یا باز کردن هر صفحه به منابع سرور زیادی نیاز دارد، ممکن است سرور شما نتواند به همه درخواست ها رسیدگی کند. در نتیجه، بیش از حد بارگذاری می شود و کاربران و موتورهای جستجو ممکن است به طور موقت دسترسی به سایت شما را از دست بدهند. اینجاست که دستورالعمل Crawl-Delay ممکن است مفید باشد و روند خزیدن را کند کند.
مقدار دستور Crawl-Delay بر حسب ثانیه تعریف می شود. می توانید آن را بین 1 تا 30 ثانیه تنظیم کنید.

کامنت robots.txt

می‌توانید با افزودن  # hash در ابتدای یک خط یا بعد از دستور، نظرات خود را در فایل robots.txt اضافه کنید. موتورهای جستجو هر چیزی را که از # در همان خط پیروی می کند نادیده می گیرند.
کامنت برای انسان ها منظور شده است تا توضیح دهند که یک بخش خاص به چه معناست. همیشه ایده خوبی است که آنها را اضافه کنید زیرا به شما امکان می دهند دفعه بعد که فایل را باز می کنید سریعتر بفهمید چه اتفاقی می افتد.
#Blocks access to the blog section
User-agent: Googlebot
Disallow: /blog/
User-agent: Bingbot
Disallow: /users/ #blocks access to users section

Wildcards

Wildcards کاراکترهای خاصی هستند که می توانند به عنوان مکان نگهدار برای سایر نمادها در متن کار کنند و بنابراین فرآیند ایجاد فایل robots.txt را ساده می کنند. آنها عبارتند از:
*
$
ستاره می تواند جایگزین هر رشته ای شود.

* :User-agent
در مثال بالا، ستاره در خط User-agent تمام ربات های موتورهای جستجو را مشخص می کند. بنابراین، هر دستورالعملی که از آن پیروی می کند، تمام خزنده ها را هدف قرار می دهد.
Disallow: /*?
همچنین می توانید از آن برای تعریف مسیر استفاده کنید. مثال های بالا به این معنی است که هر URL که با "؟" ختم می شود. غیر مجاز است.
علامت دلار نشان دهنده عنصر خاصی است که با انتهای URL مطابقت دارد.
Disallow: /*.jpeg$
مثال بالا نشان می دهد که هر URL که با ".jpeg" ختم می شود باید غیرمجاز باشد.

تست فایل robots.txt

می‌توانید با robots.txt tester در کنسول جستجوی Google و ابزار وب‌مستر بینگ آزمایش کنید. به سادگی URL مورد نظر برای تأیید را تایپ کنید و ابزار، مجاز یا غیرمجاز بودن آن را به شما نشان می دهد.
همچنین می‌توانید فایل را مستقیماً در robots.txt tester ویرایش کنید و تغییرات را مجدداً آزمایش کنید. به خاطر داشته باشید که تغییرات در وب سایت شما ذخیره نمی شود. شما باید فایل را کپی کرده و در سایت خود آپلود کنید.

Robots.txt در مقابل Meta Robots Tag در مقابل X-Robots-Tag

Robots.txt تنها راه برای برقراری ارتباط با خزنده ها نیست. همچنین می توانید از متا روبات تگ و تگ X-Robots استفاده کنید. مهمترین تفاوت این واقعیت است که robots.txt خزیدن یک وب سایت را کنترل می کند، در حالی که Meta Robots Tag و X-Robots-Tag به شما امکان کنترل فهرست بندی آن را می دهند.
هنگامی که یک ربات موتور جستجو صفحه ای را پیدا می کند، ابتدا به داخل فایل robots.txt نگاه می کند. اگر خزیدن غیر مجاز نباشد، می‌تواند به وب‌سایت دسترسی پیدا کند و تنها در این صورت می‌تواند تگ‌های Meta Robots یا هدر X-Robots-Tag را پیدا کند. 
در بین این سه روش،
فقط robots.txt می تواند به شما در بهینه سازی بودجه خزش کمک کند.

چند نکته مهم

در اینجا برخی از بهترین شیوه ها و نکات هنگام ایجاد یک فایل robots.txt آورده شده است:
 
  • فایل های جاوا اسکریپت یا CSS خود را با استفاده از robots.txt مسدود نکنید. اگر ربات ها نتوانند به این منابع دسترسی داشته باشند، ممکن است محتوای شما را به درستی نمیبینند.
  • اطمینان حاصل کنید که آدرس نقشه سایت خود اضافه را کنید تا به همه ربات های موتور جستجو کمک کنید آن را به راحتی پیدا کنند.
  • صفحاتی که در این فایل از ایندکس ان ها جلوگیری می کنید را در سایت مپ قرار ندهید.
  • تفسیر نحو robots.txt ممکن است بسته به موتور جستجو متفاوت باشد. اگر مطمئن نیستید، همیشه نحوه برخورد یک ربات موتور جستجو با یک دستورالعمل خاص را بررسی کنید.
  • هنگام استفاده از حروف عامیانه مراقب باشید. اگر از آنها سوء استفاده کنید، ممکن است به اشتباه دسترسی به کل بخش سایت خود را مسدود کنید.
  • از robots.txt برای مسدود کردن محتوای خصوصی خود استفاده نکنید. اگر می خواهید صفحه خود را ایمن کنید، بهتر است از آن با رمز عبور محافظت کنید. علاوه بر این، فایل robots.txt برای عموم قابل دسترسی است و شما می‌توانید مکان محتوای خصوصی خود را به ربات‌های خطرناک فاش کنید.
  • عدم دسترسی خزنده ها به سایت شما باعث حذف آن از صفحه نتایج جستجو نمی شود. اگر پیوندهای زیادی با انکر تکست توصیفی وجود داشته باشد که به صفحه شما اشاره می کند، همچنان می توان آن را ایندکس کرد. اگر می خواهید از آن جلوگیری کنید، باید به جای آن از Meta Robots Tag یا هدر X-Robots-Tag استفاده کنید.

کلام آخر

اگر فایل Robots.txt خود را به درستی راه اندازی کنید، می توانید فرآیند ایندکسینک سایت خود را بهبود ببخشید .وقتی موتورهای جستجو بهینه تر بودجه خزش شما را مصرف کنند، تغییرات محتوایی شما سریعتر توسط گوگل دیده می شود. همچنین ایجاد فایل Robots.txt کار چندانی نیست. این یک تنظیم یک بار است که می توانید با توجه به نیاز خود آن را سفارشی کنید.

موضوع :سئو، سئو تکنیکال

مجموعه وب وان با داشتن چندین نمونه کار موفق در زمینه سئو سایت فروشگاهی و شرکتی آماده ارائه خدمات به مشتریان خود می باشد. جهت مشاوره سئو و استعلام تعرفه سئو سایت با کارشناسان ما در تماس باشید.




مطالب مرتبط: تگ کنونیکال چیست و چه کاربردی دارد؟
 
اشتراک گذاری:
021-41658