موتورهای جستجو گوگل چگونه کار می کنند: Indexing

آخرین بروزرسانی: 6 دسامبر 2023

آموزش

آنچه در این پست میخوانید

ایندکس: موتورهای جستجو چگونه صفحات شما را تفسیر و ذخیره می کنند؟
- آیا می توانم ببینم یک خزنده Googlebot چگونه صفحات من را می بیند؟
- آیا صفحاتی از ایندکس حذف شده اند؟
به موتورهای جستجو بگویید که چگونه سایت شما را ایندکس کنند!
- دستورالعمل های متا ربات ها

ایندکس: موتورهای جستجو چگونه صفحات شما را تفسیر و ذخیره می کنند؟

هنگامی که مطمئن شدید که سایت شما کرال شده است، مرحله بعدی این است که مطمئن شوید می تواند ایندکس شود. فقط به این دلیل که سایت شما توسط یک موتور جستجو قابل کشف و خزش است، لزوماً به این معنی نیست که در ایندکس آنها ذخیره می شود. در بخش قبلی در مورد خزیدن، در مورد چگونگی کشف صفحات وب توسط موتورهای جستجو بحث کردیم. ایندکس جایی است که صفحات پیدا شده شما ذخیره می شوند. پس از اینکه خزنده یک صفحه را پیدا کرد، موتور جستجو آن را درست مانند یک مرورگر رندر می کند. در فرآیند انجام این کار، موتور جستجو محتویات آن صفحه را تجزیه و تحلیل می کند. تمام این اطلاعات در آن ذخیره می شود.

آیا می توانم ببینم یک خزنده Googlebot چگونه صفحات من را می بیند؟

بله، نسخه ذخیره شده صفحه شما تصویری از آخرین باری که Googlebot آن را خزیده است منعکس می کند. گوگل صفحات وب را در فرکانس های مختلف می خزند و کش می کند. سایت های شناخته شده ای که به طور مکرر مانند https://www.nytimes.com پست می کنند، خزیده می شوند. می‌توانید با کلیک کردن روی پیکان کشویی کنار URL در SERP و انتخاب «Cached» مشاهده کنید که نسخه ذخیره‌شده یک صفحه چگونه است:

همچنین می توانید نسخه متنی سایت خود را مشاهده کنید تا مشخص کنید که آیا محتوای مهم شما به طور موثر آماده seo است.

آیا صفحاتی از ایندکس حذف شده اند؟

بله، صفحات را می توان از ایندکس حذف کرد! برخی از دلایل اصلی حذف URL عبارتند از:

- نشانی اینترنتی یک خطای “نیست یافت نشد” (4XX) یا خطای سرور (5XX) را برمی گرداند این ممکن است تصادفی باشد (صفحه منتقل شده و تغییر مسیر 301 تنظیم نشده است) یا عمدی (صفحه حذف شده و 404 به منظور آن را از فهرست حذف کنید)
- URL دارای یک متا تگ noindex اضافه شده است این تگ می تواند توسط صاحبان سایت اضافه شود تا به موتور جستجو دستور دهد صفحه را از فهرست خود حذف کند.
- URL به صورت دستی به دلیل نقض دستورالعمل های وبمستر موتور جستجو جریمه شده است و در نتیجه از فهرست حذف شده است.
- URL از خزیدن با اضافه کردن رمز عبور لازم برای دسترسی بازدیدکنندگان به صفحه مسدود شده است.

اگر فکر می‌کنید صفحه‌ای در وب‌سایت شما که قبلاً در ایندکس Google بود، دیگر نشان داده نمی‌شود، می‌توانید از ابزار بازرسی URL برای اطلاع از وضعیت صفحه استفاده کنید، یا از Fetch as Google که دارای ویژگی «درخواست نمایه‌سازی» است استفاده کنید. URL های فردی را به فهرست ارسال کنید. (راه حل: ابزار “Fetch” GSC همچنین دارای گزینه “رندر” است که به شما امکان می دهد ببینید آیا در نحوه تفسیر صفحه شما توسط گوگل مشکلی وجود دارد یا خیر).

به موتورهای جستجو بگویید که چگونه سایت شما را ایندکس کنند!

دستورالعمل های متا ربات ها

دستورالعمل‌های متا (یا «متا تگ‌ها») دستورالعمل‌هایی هستند که می‌توانید در مورد نحوه برخورد با صفحه وب خود به موتورهای جستجو بدهید. می‌توانید به خزنده‌های موتور جستجو مواردی مانند «این صفحه را در نتایج جستجو ایندکس نکنید» یا «هیچ ارزش پیوندی را به هیچ پیوندی در صفحه ارسال نکنید» بگویید. این دستورالعمل ها از طریق متا تگ Robots در <head> صفحات HTML شما (که بیشتر استفاده می شود) یا از طریق X-Robots-Tag در هدر HTTP اجرا می شوند.

ربات های متا تگ

متا تگ robots را می توان در <head> HTML صفحه وب شما استفاده کرد. می تواند همه یا موتورهای جستجوی خاص را حذف کند. موارد زیر رایج ترین دستورات متا را به همراه شرایطی که ممکن است آنها را در آن اعمال کنید، آورده شده است.

index/noindex به موتورها می گوید که آیا صفحه باید خزیده شود و برای بازیابی در ایندکس موتورهای جستجو نگهداری شود. اگر استفاده از «noindex» را انتخاب کنید، به خزنده‌ها اطلاع می‌دهید که می‌خواهید صفحه از نتایج جستجو حذف شود. به‌طور پیش‌فرض، موتورهای جستجو فرض می‌کنند که می‌توانند همه صفحات را ایندکس کنند، بنابراین استفاده از مقدار «شاخص» غیرضروری است.

زمانی که ممکن است استفاده کنید: اگر می‌خواهید صفحات را از نمایه Google سایت خود (مثلاً صفحات نمایه ایجاد شده توسط کاربر) کوتاه کنید، ممکن است صفحه‌ای را به‌عنوان “noindex” علامت‌گذاری کنید، اما همچنان می‌خواهید که برای بازدیدکنندگان قابل دسترسی باشد.

follow/nofollow به موتورهای جستجو می گوید که آیا پیوندهای صفحه باید دنبال شوند یا نوفالو شوند. «دنبال کردن» به این نتیجه می‌رسد که ربات‌ها پیوندهای صفحه شما را دنبال می‌کنند و ارزش پیوند را به آن URLها ارسال می‌کنند. یا اگر انتخاب کنید که از “nofollow” استفاده کنید، موتورهای جستجو هیچ گونه ارزش پیوندی را دنبال نمی کنند یا از طریق آن لینک های موجود در صفحه را ارسال نمی کنند. به‌طور پیش‌فرض، فرض می‌شود که همه صفحات دارای ویژگی «دنبال کردن» هستند.

زمانی که ممکن است استفاده کنید: زمانی که می‌خواهید از ایندکس شدن یک صفحه جلوگیری کنید و همچنین از دنبال کردن پیوندهای صفحه توسط خزنده جلوگیری کنید، اغلب از nofollow همراه با noindex استفاده می‌شود.

noarchive برای محدود کردن موتورهای جستجو از ذخیره یک نسخه کش شده از صفحه استفاده می شود. به‌طور پیش‌فرض، موتورها کپی‌های قابل مشاهده از تمام صفحاتی را که فهرست‌بندی کرده‌اند، حفظ می‌کنند، که برای جستجوگران از طریق پیوند ذخیره‌شده در نتایج جستجو قابل دسترسی است.

زمانی که ممکن است استفاده کنید: اگر یک سایت تجارت الکترونیکی را اجرا می کنید و قیمت های شما به طور مرتب تغییر می کند، ممکن است برچسب noarchive را برای جلوگیری از مشاهده قیمت های قدیمی توسط جستجوگران در نظر بگیرید.

در اینجا یک نمونه از متا روبات noindex، تگ nofollow آورده شده است:

<!DOCTYPE html><html><head><meta name=”robots” content=”noindex, nofollow” /></head><body>…</body></html>

این مثال تمام موتورهای جستجو را از فهرست کردن صفحه و دنبال کردن پیوندهای داخل صفحه محروم می کند. اگر می‌خواهید خزنده‌های متعدد، مانند googlebot و bing را حذف کنید، اشکالی ندارد که از چندین برچسب حذف ربات استفاده کنید.

X-Robots-Tag

تگ x-robots در هدر HTTP URL شما استفاده می‌شود و انعطاف‌پذیری و عملکرد بیشتری را نسبت به متا تگ‌ها ارائه می‌دهد، اگر می‌خواهید موتورهای جستجو را در مقیاس مسدود کنید، زیرا می‌توانید از regular expressions استفاده کنید، فایل‌های غیرHTML را مسدود کنید، و برچسب‌های noindex در سراسر سایت را اعمال کنید. .

به عنوان مثال، می توانید به راحتی کل پوشه ها یا انواع فایل ها را حذف کنید (مانند moz.com/no-bake/old-recipes-to-noindex):

<Files ~ “\/?no\-bake\/.*”> Header set X-Robots-Tag “noindex, nofollow”</Files>

یا انواع فایل های خاص (مانند PDF):

<Files ~ “\.pdf$”> Header set X-Robots-Tag “noindex, nofollow”</Files>

منبع: moz

پرانتز

موتورهای جستجو گوگل چگونه کار می کنند: Indexing

ایندکس: موتورهای جستجو چگونه صفحات شما را تفسیر و ذخیره می کنند؟