robots.txt چیست؟ و چگونه باید یک فایل robots.txt ایجاد کرد؟

ساخت وبلاگ

وگل از ربات های هوشمندی که به آن ها خزندگان صفحات وب نیز میگوند، استفاده می کند.  این خزندگان توایی سر زدن به تمام صفحات وب را دارند. گوگل با استفاده از این خزندگان قادر به جمع آوری اطلاعات سایت ها می باشند. اجازه دسترسی یا عدم دسترسی به صفحات وب توسط فایل robots.txt مشخص می گردد.

با استفاده از فایل robots.txt می توانید دسترسی خزندگان به سایت خود را محدود کنید. در واقع با اعمال برخی از کدها در این فایل شما به خزندگان گوگل می گویید که به چه صفحاتی دسترسی داشته باشند و چه صفحاتی را ایندکس نکنند. robots.txt به معنای این نیست که موتورهای جستجو ملزم به رعایت قوانین موجود در آن هستند. برخی از ربات ها از مجوز های دسترسی پیروی نمی کنند.Email Harvesters  و Spambots Malware یا ربات‌هایی که امنیت وب‌سایت شما را بررسی می‌کنند، ممکن است اصلاً از این دستورات پیروی نکنند و حتی کار خود را از بخش‌هایی از سایت آغاز کنند که اجازه‌ی دسترسی بهشان را ندارند.

برای ممانعت از ورود تمامی روبات‌های اینترنتی به یک صفحه خاص می توان از تگ زیر استفاده کرد.

و برای محدود کردن روبات‌های گوگل از تگ زیر استفاده می شود.

آموزش ساخت فایل robots.txt
برای ایجاد یک فایل robots.txt می توان از ۲ قانون و دستور کلی پیروی کرد.  برای ربات های گوگل یک دستور دیگر نیز اضافه می شود.

قوانین کاربردی:
User-agent
در این قسمت نام خزندگان موتور جستجو که میتوانند صفحات سایت شما را بررسی کنند را مشخص می کنید.

User-agent: *
همه خزندگان موتورهای جستجو اجازه دسترسی به سایت را دارند.

User-Agent: Googlebot
با این دستور به فقط ربات Googlebot اجازه دسترسی میدهد یا نمی دهد. اجازه دسترسی به این رباط توسط دستور Disallow مشخص می گردد.

Disallow
در این قسمت لیست فایل ها، دایرکتوری یا هر صفحه ای که میخواهیم موتور های جستجو به آنها دسترسی نداشته باشند را مشخص می کنید. این صفحات ایندکس نمی شوند.

User-agent: *
Disallow: /News
با استفاده از دو خط کد بالا به هیچ یک از خزندگان موتورهای جستجو اجازه دسترسی به پوشه اخبار را نمیدهد.

Allow
این دستور فقط و فقط به ربات گوگل می گوید که اجازه دستری به یک زیر بخش از سایت را دارد. اگر دسترسی دایرکتوری ریشه هم غیرمجاز باشد باز هم دستور allow اجازه دسترسی به بخش مورد نظر را میدهد.

User-agent: *
Disallow: /News
Allow: /News/taral.jpg
با استفاده از ۳ خط کد بالا به هیچ یک از خزندگان موتورهای جستجو اجازه دسترسی به پوشه خبر را نمیدهد. اما خزندگان گوگل اجازه دسترسی به تصویر تارال در پوشه اخبار را دارند.

 

برای خدمات بیشتر به سایت دیجیتال مارکتینگ اصفهان (تارال) مراجعه نمایید

سئو وب سایت در اصفهان

طراحی اپلیکیشن اندروید در اصفهان

طراحی سایت اصفهان

شرکت دیجیتال مارکتینگ تارال...
ما را در سایت شرکت دیجیتال مارکتینگ تارال دنبال می کنید

برچسب : robots , ربات وردپرس , ربات بلاگفا, نویسنده : ادمین taral بازدید : 207 تاريخ : سه شنبه 1 مهر 1399 ساعت: 23:41