موتورهای جستجو گوگل چگونه کار می کنند: Indexing
ایندکس: موتورهای جستجو چگونه صفحات شما را تفسیر و ذخیره می کنند؟
هنگامی که مطمئن شدید که سایت شما کرال شده است، مرحله بعدی این است که مطمئن شوید می تواند ایندکس شود. فقط به این دلیل که سایت شما توسط یک موتور جستجو قابل کشف و خزش است، لزوماً به این معنی نیست که در ایندکس آنها ذخیره می شود. در بخش قبلی در مورد خزیدن، در مورد چگونگی کشف صفحات وب توسط موتورهای جستجو بحث کردیم. ایندکس جایی است که صفحات پیدا شده شما ذخیره می شوند. پس از اینکه خزنده یک صفحه را پیدا کرد، موتور جستجو آن را درست مانند یک مرورگر رندر می کند. در فرآیند انجام این کار، موتور جستجو محتویات آن صفحه را تجزیه و تحلیل می کند. تمام این اطلاعات در آن ذخیره می شود.
آیا می توانم ببینم یک خزنده Googlebot چگونه صفحات من را می بیند؟
بله، نسخه ذخیره شده صفحه شما تصویری از آخرین باری که Googlebot آن را خزیده است منعکس می کند. گوگل صفحات وب را در فرکانس های مختلف می خزند و کش می کند. سایت های شناخته شده ای که به طور مکرر مانند https://www.nytimes.com پست می کنند، خزیده می شوند. میتوانید با کلیک کردن روی پیکان کشویی کنار URL در SERP و انتخاب «Cached» مشاهده کنید که نسخه ذخیرهشده یک صفحه چگونه است:
همچنین می توانید نسخه متنی سایت خود را مشاهده کنید تا مشخص کنید که آیا محتوای مهم شما به طور موثر آماده seo است.
آیا صفحاتی از ایندکس حذف شده اند؟
بله، صفحات را می توان از ایندکس حذف کرد! برخی از دلایل اصلی حذف URL عبارتند از:
-
- نشانی اینترنتی یک خطای “نیست یافت نشد” (4XX) یا خطای سرور (5XX) را برمی گرداند این ممکن است تصادفی باشد (صفحه منتقل شده و تغییر مسیر 301 تنظیم نشده است) یا عمدی (صفحه حذف شده و 404 به منظور آن را از فهرست حذف کنید)
- URL دارای یک متا تگ noindex اضافه شده است این تگ می تواند توسط صاحبان سایت اضافه شود تا به موتور جستجو دستور دهد صفحه را از فهرست خود حذف کند.
- URL به صورت دستی به دلیل نقض دستورالعمل های وبمستر موتور جستجو جریمه شده است و در نتیجه از فهرست حذف شده است.
- URL از خزیدن با اضافه کردن رمز عبور لازم برای دسترسی بازدیدکنندگان به صفحه مسدود شده است.
اگر فکر میکنید صفحهای در وبسایت شما که قبلاً در ایندکس Google بود، دیگر نشان داده نمیشود، میتوانید از ابزار بازرسی URL برای اطلاع از وضعیت صفحه استفاده کنید، یا از Fetch as Google که دارای ویژگی «درخواست نمایهسازی» است استفاده کنید. URL های فردی را به فهرست ارسال کنید. (راه حل: ابزار “Fetch” GSC همچنین دارای گزینه “رندر” است که به شما امکان می دهد ببینید آیا در نحوه تفسیر صفحه شما توسط گوگل مشکلی وجود دارد یا خیر).
به موتورهای جستجو بگویید که چگونه سایت شما را ایندکس کنند!
دستورالعمل های متا ربات ها
دستورالعملهای متا (یا «متا تگها») دستورالعملهایی هستند که میتوانید در مورد نحوه برخورد با صفحه وب خود به موتورهای جستجو بدهید. میتوانید به خزندههای موتور جستجو مواردی مانند «این صفحه را در نتایج جستجو ایندکس نکنید» یا «هیچ ارزش پیوندی را به هیچ پیوندی در صفحه ارسال نکنید» بگویید. این دستورالعمل ها از طریق متا تگ Robots در <head> صفحات HTML شما (که بیشتر استفاده می شود) یا از طریق X-Robots-Tag در هدر HTTP اجرا می شوند.
ربات های متا تگ
متا تگ robots را می توان در <head> HTML صفحه وب شما استفاده کرد. می تواند همه یا موتورهای جستجوی خاص را حذف کند. موارد زیر رایج ترین دستورات متا را به همراه شرایطی که ممکن است آنها را در آن اعمال کنید، آورده شده است.
index/noindex به موتورها می گوید که آیا صفحه باید خزیده شود و برای بازیابی در ایندکس موتورهای جستجو نگهداری شود. اگر استفاده از «noindex» را انتخاب کنید، به خزندهها اطلاع میدهید که میخواهید صفحه از نتایج جستجو حذف شود. بهطور پیشفرض، موتورهای جستجو فرض میکنند که میتوانند همه صفحات را ایندکس کنند، بنابراین استفاده از مقدار «شاخص» غیرضروری است.
- زمانی که ممکن است استفاده کنید: اگر میخواهید صفحات را از نمایه Google سایت خود (مثلاً صفحات نمایه ایجاد شده توسط کاربر) کوتاه کنید، ممکن است صفحهای را بهعنوان “noindex” علامتگذاری کنید، اما همچنان میخواهید که برای بازدیدکنندگان قابل دسترسی باشد.
follow/nofollow به موتورهای جستجو می گوید که آیا پیوندهای صفحه باید دنبال شوند یا نوفالو شوند. «دنبال کردن» به این نتیجه میرسد که رباتها پیوندهای صفحه شما را دنبال میکنند و ارزش پیوند را به آن URLها ارسال میکنند. یا اگر انتخاب کنید که از “nofollow” استفاده کنید، موتورهای جستجو هیچ گونه ارزش پیوندی را دنبال نمی کنند یا از طریق آن لینک های موجود در صفحه را ارسال نمی کنند. بهطور پیشفرض، فرض میشود که همه صفحات دارای ویژگی «دنبال کردن» هستند.
- زمانی که ممکن است استفاده کنید: زمانی که میخواهید از ایندکس شدن یک صفحه جلوگیری کنید و همچنین از دنبال کردن پیوندهای صفحه توسط خزنده جلوگیری کنید، اغلب از nofollow همراه با noindex استفاده میشود.
noarchive برای محدود کردن موتورهای جستجو از ذخیره یک نسخه کش شده از صفحه استفاده می شود. بهطور پیشفرض، موتورها کپیهای قابل مشاهده از تمام صفحاتی را که فهرستبندی کردهاند، حفظ میکنند، که برای جستجوگران از طریق پیوند ذخیرهشده در نتایج جستجو قابل دسترسی است.
- زمانی که ممکن است استفاده کنید: اگر یک سایت تجارت الکترونیکی را اجرا می کنید و قیمت های شما به طور مرتب تغییر می کند، ممکن است برچسب noarchive را برای جلوگیری از مشاهده قیمت های قدیمی توسط جستجوگران در نظر بگیرید.
در اینجا یک نمونه از متا روبات noindex، تگ nofollow آورده شده است:
<!DOCTYPE html><html><head><meta name=”robots” content=”noindex, nofollow” /></head><body>…</body></html>
این مثال تمام موتورهای جستجو را از فهرست کردن صفحه و دنبال کردن پیوندهای داخل صفحه محروم می کند. اگر میخواهید خزندههای متعدد، مانند googlebot و bing را حذف کنید، اشکالی ندارد که از چندین برچسب حذف ربات استفاده کنید.
X-Robots-Tag
تگ x-robots در هدر HTTP URL شما استفاده میشود و انعطافپذیری و عملکرد بیشتری را نسبت به متا تگها ارائه میدهد، اگر میخواهید موتورهای جستجو را در مقیاس مسدود کنید، زیرا میتوانید از regular expressions استفاده کنید، فایلهای غیرHTML را مسدود کنید، و برچسبهای noindex در سراسر سایت را اعمال کنید. .
به عنوان مثال، می توانید به راحتی کل پوشه ها یا انواع فایل ها را حذف کنید (مانند moz.com/no-bake/old-recipes-to-noindex):
<Files ~ “\/?no\-bake\/.*”> Header set X-Robots-Tag “noindex, nofollow”</Files>
یا انواع فایل های خاص (مانند PDF):
<Files ~ “\.pdf$”> Header set X-Robots-Tag “noindex, nofollow”</Files>
منبع: moz