فایل robots.txt چیست؟
فایل robots.txt یک فایل متنی است که در وب سایت قرار داده می شود و به موتورهای جستجو گفته می شود که کدام قسمت های وب سایت برای موتورهای جستجو قابل دسترس است و کدام قسمت های وبب سایت قابل دسترس نمی باشد.
فایل robots.txt به معنای این نیست که موتورهای جستجو ملزم به رعایت قوانین موجود در آن هستند برخی اوقات موتورهای جستجو از این قوانین پیروی نمی کنند. ولی فایل robots.txt یکی از روشهایی است که میی توان ورود موتورهای جستجو به سایت را کنترل نمود.
این مسئله برای وب سایت ها بسیار مهم است با توجه به اینکه موتورهای جستجو بارها و بارها به وب سایت مراجعه می کنند به کدام قسمت های سایت دسترسی داشته باشد و به کدام قسمت های سایت دسترسی نداشته باشند و در برخی اوقات اطلاعات حساسی در وب سایت ها وجود دارد که موتورهای جستجو نباید به آنها دسترسی داشته باشند که یکی از روشهای کنترل دسترسی استفاده از فایل robots.txt است.
ساختار فایل robots.txt
ساختار فایل robots.txt بسیار ساده و در عین حال منعطف پذیر است. فایل robots.txt از یکسری user agents و فایلها و دایرکتورهای disallowed تشکیل شده است. در واقع این فایل بصورت زیر است:
- User-agent می توان خزنده های موتورهای جستجو که می توانند به سایت دسترسی داشته باشند را مشخص نمود.
- Disallow می توان لیست فایلها یا دایرکتوری هایی را که می خواهیم موتورهای جستجو به آنها دسترسی نداشته باشند را مشخص نمود.
برخی نمونه های فایل robots.txt
مسدود کردن دسترسی خزنده های موتورهای جستجو به کل محتویات سایت
User-agent: *
Disallow: /
مسدود کردن دسترسی خزنده های موتورهای جستجو به یک دایرکتوری مشخص
User-agent: Googlebot
Disallow: /no-google/
مسدود کردن دسترسی خزنده های موتورهای جستجو به یک صفحه مشخص
User-agent: Googlebot
Disallow: /no-google/blocked-page.html
پارامترهای نقشه سایت
User-agent: *
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml
اضافه کردن فایل robots.txt به گوگل وبمستر تولز
جهت اضافه کردن فایل robots.txt به گوگل وبمستر تولز می توانید بصورت زیر عمل نمایید:
ابتدا توسط اکانت خود وارد گوگل وبمستر تولز شوید و از منوی Crawl روی زیر منوی robots.txt Tester کلیک نمایید.
در ادیتوری که در سمت راست صفحه نمایش داده می شود می توانید محتوای فایل robots.txt را وارد نمایید و سپس دکمه submit را کلیک کنید.
بعد از ارسال شدن محتوای فایل robots.txt به گوگل وب مستر تولز بعد از چند دقیقه محتوای بروزرسانی شده نمایش داده خواهد شد.
تست آدرس های محدود شده در فایل robots.txt
جهت تست کردن اینکه کدام فایل ها یا دایرکتوری ها در فایل robots.txt محدود شده است می توانید توسط تست کننده گوگل وبمستر که در شکل زیر نمایش داده شده است استفاده نمایید: