موتورهای جستجو گوگل چگونه کار می کنند: Crawling
همانطور که در فصل 1 اشاره کردیم، موتورهای جستجو، پاسخگو هستند. آنها برای کشف، درک و سازماندهی محتوای اینترنت به منظور ارائه مرتبط ترین نتایج به سؤالاتی که جستجوگران می پرسند وجود دارند.
برای نمایش در نتایج جستجو، ابتدا محتوای شما باید برای موتورهای جستجو قابل مشاهده باشد. مسلماً این مهمترین قطعه از پازل SEO است: اگر سایت شما پیدا نشد، هیچ راهی وجود ندارد که در SERPs (صفحه نتایج موتور جستجو) ظاهر شوید.
موتورهای جستجو چگونه کار می کنند؟
موتورهای جستجو از طریق سه عملکرد اصلی کار می کنند:
Crawling: اینترنت را برای یافتن محتوا جستجو میکند، کد یا محتوا را برای هر URL که پیدا میکنند جستجو میکند.
Indexing: محتوای یافت شده در طول فرآیند خزیدن را ذخیره و سازماندهی میشود. هنگامی که یک صفحه در ایندکس قرار می گیرد، در حال اجرا است تا در نتیجه به جستجوهای مربوطه نمایش داده شود.
Ranking: محتوایی را ارائه دهید که به بهترین وجه به پرسش جستجوگر پاسخ میدهد، به این معنی که نتایج بر اساس مرتبطترین تا کممرتبطتر مرتبسازی میشوند.
خزش یا کرال موتور جستجو چیست؟
خزیدن فرآیند اکتشاف است که در آن موتورهای جستجو تیمی از ربات ها (معروف به خزنده crawler یا عنکبوت spider) را برای یافتن محتوای جدید و به روز می فرستند. محتوا می تواند متفاوت باشد، می تواند یک صفحه وب، یک تصویر، یک ویدیو، یک PDF و … باشد، اما صرف نظر از قالب، محتوا توسط لینکها کشف می شود.
Googlebot با جذب چند صفحه وب شروع به کار می کند و سپس پیوندهای موجود در آن صفحات وب را برای یافتن URL های جدید دنبال می کند. با خزش در این مسیر از پیوندها، خزنده می تواند محتوای جدیدی را پیدا کند و آن را به فهرست خود به نام Caffeine – پایگاه دیتا عظیمی از URL های کشف شده، اضافه کند تا بعداً زمانی که جستجوگر به دنبال اطلاعاتی است که محتوای موجود در آن URL است بازیابی شود.
شاخص موتور جستجو چیست؟
موتورهای جستجو اطلاعاتی را که در یک فهرست پیدا میکنند، پردازش میکنند و ذخیره میکنند، یک پایگاه داده عظیم از تمام محتوایی که کشف کردهاند و بهنظر میرسد آنقدر خوب است که به جستجوگران ارائه شود.
رتبه بندی موتورهای جستجو
هنگامی که شخصی جستجویی را انجام می دهد، موتورهای جستجو فهرست آنها را برای محتوای بسیار مرتبط بررسی می کنند و سپس آن محتوا را به امید حل سؤال جستجوگر سفارش می دهند. این ترتیب نتایج جستجو بر اساس ارتباط به عنوان رتبه بندی شناخته می شود. به طور کلی، میتوانید فرض کنید که هر چه یک وبسایت رتبهبندی بالاتری داشته باشد، موتور جستجو مرتبطتر فکر میکند که آن سایت با جستجو مرتبط است.
این امکان وجود دارد که خزنده های موتورهای جستجو را از قسمتی یا تمام سایت خود مسدود کنید یا به موتورهای جستجو دستور دهید تا از ذخیره برخی صفحات در فهرست خود اجتناب کنند. در حالی که میتواند دلایلی برای انجام این کار وجود داشته باشد، اگر میخواهید محتوای شما توسط جستجوگران پیدا شود، ابتدا باید مطمئن شوید که برای خزندهها قابل دسترسی است و قابل ایندکس است. در غیر این صورت، به همان اندازه نامرئی است.
Crawling: آیا موتورهای جستجو می توانند صفحات شما را پیدا کنند؟
همانطور که یاد گرفتید، اطمینان از اینکه سایت شما کرال شده و ایندکس می شود، پیش نیاز نمایش در SERP است. اگر قبلاً یک وب سایت دارید، ممکن است ایده خوبی باشد که با دیدن تعداد صفحات شما در فهرست شروع کنید. این اطلاعات بینش خوبی در مورد اینکه آیا گوگل در حال خزیدن و یافتن همه صفحاتی است که میخواهید پیدا میکند و هیچ کدام را که شما نمیخواهید به دست میدهد.
یکی از راههای بررسی صفحات ایندکس شده، “site:yourdomain.com” است که یک اپراتور جستجوی پیشرفته است. به گوگل سر بزنید و “site:yourdomain.com” را در نوار جستجو تایپ کنید. این نتایج نتایجی را که گوگل در فهرست خود برای سایت مشخص شده دارد، نشان می دهد:
تعداد نتایجی که گوگل نمایش می دهد (به «درباره XX نتایج» در بالا مراجعه کنید) دقیق نیست، اما به شما یک ایده کامل از اینکه کدام صفحات در سایت شما ایندکس شده اند و چگونه در حال حاضر در نتایج جستجو نشان داده می شوند، می دهد.
برای نتایج دقیق تر، گزارش Index Coverage را در Google Search Console نظارت کرده و از آن استفاده کنید. اگر در حال حاضر ندارید، میتوانید برای یک حساب Google Search Console رایگان ثبت نام کنید. با استفاده از این ابزار میتوانید نقشههای سایت خود را برای سایت خود ارسال کنید و نظارت کنید که چه تعداد از صفحات ارسالی واقعاً به فهرست گوگل اضافه شدهاند.
اگر در هیچ کجای نتایج جستجو نمایش داده نمیشوید، چند دلیل ممکن وجود دارد:
سایت شما کاملاً جدید است و هنوز خزیده نشده است.
سایت شما از هیچ وب سایت خارجی پیوند داده نشده است.
ناوبری سایت شما خزیدن موثر آن را برای ربات سخت می کند.
سایت شما حاوی کدهای اساسی به نام دستورالعمل های خزنده است که موتورهای جستجو را مسدود می کند.
سایت شما توسط گوگل به دلیل تاکتیک های اسپم جریمه شده است.
به موتورهای جستجو بگویید که چگونه سایت شما را کرال کنند
اگر از گوگل سرچ کنسول یا اپراتور جستجوی پیشرفته “site:domain.com” استفاده کرده اید و متوجه شده اید که برخی از صفحات مهم شما در فهرست گم شده اند و یا برخی از صفحات بی اهمیت شما به اشتباه ایندکس شده اند، بهینه سازی هایی وجود دارد که می توانید انجام دهید. پیاده سازی کنید تا ربات گوگل را بهتر هدایت کنید که می خواهید محتوای وب شما چگونه خزیده شود. به موتورهای جستجو بگویید که چگونه سایت شما را بخزند، می تواند به شما کنترل بهتری بر آنچه در ایندکس ختم می شود، بدهد.
بیشتر مردم به این فکر می کنند که گوگل می تواند صفحات مهم آنها را پیدا کند، اما فراموش کردن این موضوع آسان است که احتمالاً صفحاتی وجود دارند که نمی خواهید Googlebot آنها را پیدا کند. این موارد ممکن است شامل مواردی مانند URL های قدیمی با محتوای نامناسب، URL های تکراری (مانند پارامترهای مرتب سازی و فیلتر کردن برای تجارت الکترونیک)، صفحات کد تبلیغاتی ویژه، صفحات مرحله بندی یا آزمایشی و غیره باشد.
برای اینکه Googlebot را از صفحات و بخش های خاصی از سایت خود دور کنید، از robots.txt استفاده کنید.
Robots.txt
فایلهای Robots.txt در دایرکتوری ریشه وبسایتها (مثلاً yourdomain.com/robots.txt) قرار دارند و نشان میدهند که موتورهای جستجوی سایت شما کدام بخشها را باید و نباید کرال کنند، و همچنین سرعت خزیدن در سایت شما را نشان میدهد از طریق دستورالعمل های خاص robots.txt.
نحوه برخورد Googlebot با فایلهای robots.txt
اگر Googlebot نتواند یک فایل robots.txt برای یک سایت پیدا کند، به خزیدن در سایت ادامه می دهد.
اگر Googlebot یک فایل robots.txt برای یک سایت پیدا کند، معمولاً از پیشنهادات پیروی می کند و به خزیدن در سایت ادامه می دهد.
اگر Googlebot هنگام تلاش برای دسترسی به فایل robots.txt سایت با خطایی مواجه شود و نتواند تشخیص دهد که آیا این فایل وجود دارد یا نه، در سایت نمی خزند.
همه ربات های وب از robots.txt پیروی نمی کنند. افراد با نیت بد (به عنوان مثال، e-mail address scrapers) ربات هایی می سازند که از این پروتکل پیروی نمی کنند. در واقع، برخی از افراد از فایلهای robots.txt برای پیدا کردن جایی که محتوای خصوصی خود را قرار دادهاید، استفاده میکنند. اگرچه ممکن است منطقی به نظر برسد که خزنده ها را از صفحات خصوصی مانند صفحات ورود و مدیریت مسدود کنید تا در فهرست نشان داده نشوند، قرار دادن مکان آن URL ها در یک فایل robots.txt در دسترس عموم نیز به این معنی است که افراد دارای اهداف مخرب می تواند راحت تر آنها را پیدا کند. بهتر است این صفحات را NoIndex کنید و آنها را در پشت فرم ورود قرار دهید تا اینکه آنها را در فایل robots.txt خود قرار دهید.
تعریف پارامترهای URL در GSC
برخی از سایت ها (متداول ترین در تجارت الکترونیک) با افزودن پارامترهای خاصی به URL ها، محتوای یکسانی را در چندین URL مختلف در دسترس قرار می دهند. اگر تا به حال به صورت آنلاین خرید کرده اید، احتمالاً جستجوی خود را از طریق فیلترها محدود کرده اید. برای مثال، میتوانید «کفش» را در آمازون جستجو کنید و سپس جستجوی خود را بر اساس اندازه، رنگ و سبک اصلاح کنید. هر بار که اصلاح می کنید، URL کمی تغییر می کند:
https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123$affid=43
چگونه گوگل می داند که کدام نسخه از URL را به جستجوگران ارائه دهد؟ گوگل به تنهایی کار بسیار خوبی در تعیین URL نماینده انجام می دهد، اما می توانید از ویژگی پارامترهای URL در گوگل سرچ کنسول استفاده کنید تا به گوگل بگویید دقیقاً می خواهید آنها با صفحات شما چگونه رفتار کنند. اگر از این ویژگی برای گفتن به Googlebot استفاده میکنید که «هیچ نشانیهای وب با پارامتر ____ را کرال نکند»، در واقع میخواهید این محتوا را از Googlebot پنهان کنید، که میتواند منجر به حذف آن صفحات از نتایج جستجو شود. اگر این پارامترها صفحات تکراری ایجاد می کنند، این همان چیزی است که می خواهید، اما اگر می خواهید این صفحات ایندکس شوند، ایده آل نیست.
آیا خزنده ها می توانند تمام محتوای مهم شما را پیدا کنند؟
اکنون که چند تاکتیک برای اطمینان از دوری خزندههای موتور جستجو از محتوای بیاهمیت شما میدانید، بیایید با بهینهسازیهایی آشنا شویم که میتوانند به Googlebot در یافتن صفحات مهم شما کمک کنند.
گاهی اوقات یک موتور جستجو میتواند بخشهایی از سایت شما را با خزیدن پیدا کند، اما صفحات یا بخشهای دیگر ممکن است به دلایلی مبهم باشند. مهم است که مطمئن شوید موتورهای جستجو قادرند تمام محتوایی را که میخواهید نمایه شود، و نه فقط صفحه اصلی شما را کشف کنند.
آیا محتوای شما در پشت فرم های ورود پنهان است؟
اگر از کاربران بخواهید قبل از دسترسی به محتوای خاصی وارد سیستم شوند، فرم ها را پر کنند یا به نظرسنجی ها پاسخ دهند، موتورهای جستجو آن صفحات محافظت شده را نمی بینند. یک خزنده قطعا وارد سیستم نمی شود.
آیا به فرم های جستجو متکی هستید؟
روبات ها نمی توانند از فرم های جستجو استفاده کنند. برخی از افراد بر این باورند که اگر یک جعبه جستجو در سایت خود قرار دهند، موتورهای جستجو می توانند هر چیزی را که بازدیدکنندگان آنها جستجو می کنند، پیدا کنند.
آیا متن در محتوای غیر متنی پنهان است؟
فرمهای رسانه غیر متنی (تصاویر، ویدئو، فایلهای GIF و غیره) نباید برای نمایش متنی که میخواهید نمایه شود استفاده شود. در حالی که موتورهای جستجو در تشخیص تصاویر بهتر می شوند، هیچ تضمینی وجود ندارد که آنها بتوانند آن را بخوانند و درک کنند. همیشه بهتر است متنی را در نشانه گذاری <HTML> صفحه وب خود اضافه کنید.
آیا موتورهای جستجو می توانند ناوبری سایت شما را دنبال کنند؟
همانطور که یک خزنده باید سایت شما را از طریق پیوندهای سایت های دیگر کشف کند، به مسیری از پیوندها در سایت شما نیاز دارد تا آن را از صفحه ای به صفحه دیگر هدایت کند. اگر صفحهای دارید که میخواهید موتورهای جستجو پیدا کنند، اما از هیچ صفحه دیگری به آن پیوند داده نشده است، به همان اندازه نامرئی است. بسیاری از سایتها این اشتباه مهم را مرتکب میشوند که ناوبری خود را به گونهای تنظیم میکنند که برای موتورهای جستجو غیرقابل دسترس است، و مانع از توانایی آنها در فهرست شدن در نتایج جستجو میشود.
اشتباهات رایج ناوبری که می تواند خزنده ها را از دیدن همه سایت شما باز دارد:
داشتن یک ناوبری تلفن همراه که نتایج متفاوتی نسبت به ناوبری دسکتاپ شما نشان می دهد
هر نوع سرچ که آیتم های منو در HTML نیستند، مانند سرچ های دارای جاوا اسکریپت. گوگل در خزیدن و درک جاوا اسکریپت بسیار بهتر شده است، اما هنوز یک فرآیند عالی نیست. راه مطمئن تر برای اطمینان از یافتن، درک و نمایه شدن چیزی توسط گوگل، قرار دادن آن در HTML است.
شخصیسازی یا نشان دادن پیمایش منحصربهفرد به یک نوع خاص از بازدیدکنندگان در مقابل دیگران، ممکن است به نظر خزنده موتور جستجو را پنهان کند.
فراموش کردن پیوند دادن به یک صفحه اصلی در وب سایت خود از طریق ناوبری – به یاد داشته باشید، پیوندها مسیرهایی هستند که خزنده ها برای رسیدن به صفحات جدید دنبال می کنند!
به همین دلیل ضروری است که وب سایت شما دارای ناوبری واضح و ساختار پوشه URL مفید باشد.
آیا معماری اطلاعات منظمی دارید؟
معماری اطلاعات عبارت است از سازماندهی و برچسب گذاری محتوا در یک وب سایت برای بهبود کارایی و قابلیت یافتن کاربران. بهترین معماری اطلاعات شهودی است، به این معنی که کاربران نباید خیلی سخت فکر کنند تا در وب سایت شما جریان پیدا کنند یا چیزی پیدا کنند.
آیا از نقشه سایت استفاده می کنید؟
نقشه سایت دقیقاً همان چیزی است که به نظر می رسد: لیستی از URL ها در سایت شما که خزنده ها می توانند از آنها برای کشف و فهرست بندی محتوای شما استفاده کنند. یکی از سادهترین راهها برای اطمینان از یافتن صفحههای دارای اولویت گوگل توسط گوگل، ایجاد فایلی مطابق با استانداردهای گوگل و ارسال آن از طریق گوگل سرچ کنسول است. در حالی که ارسال نقشه سایت جایگزین نیاز به ناوبری خوب سایت نمی شود، مطمئناً می تواند به خزنده ها کمک کند تا مسیری را برای همه صفحات مهم شما دنبال کنند.
اگر سایت شما سایت دیگری ندارد که به آن پیوند داده شده باشد، هنوز هم ممکن است بتوانید با ارسال نقشه سایت XML خود در گوگل سرچ کنسول، آن را نمایه کنید. هیچ تضمینی وجود ندارد که URL ارسال شده را در فهرست خود قرار دهند، اما ارزش امتحان کردن را دارد!
آیا خزنده ها هنگام تلاش برای دسترسی به URL های شما با خطا مواجه می شوند؟
در فرآیند خزیدن URL ها در سایت شما، خزنده ممکن است با خطاهایی مواجه شود. میتوانید به گزارش «خطاهای خزیدن» گوگل سرچ کنسول بروید تا نشانیهای اینترنتی را که ممکن است این اتفاق بیفتد شناسایی کنید این گزارش خطاهای سرور را به شما نشان میدهد و خطاهای پیدا نشده را به شما نشان میدهد. فایلهای گزارش سرور همچنین میتوانند این را به شما نشان دهند و همچنین گنجینهای از اطلاعات دیگر مانند فرکانس خزیدن، اما از آنجا که دسترسی به فایلهای گزارش سرور و تشریح آن تاکتیک پیشرفتهتری است، در راهنمای مبتدیان به طور طولانی درباره آن بحث نمیکنیم. اگرچه می توانید در اینجا بیشتر در مورد آن بیاموزید.
قبل از اینکه بتوانید کار معناداری با گزارش خطای خزیدن انجام دهید، مهم است که خطاهای سرور و خطاهای “یافت نشد” را درک کنید.
کدهای 4xx: زمانی که خزنده های موتور جستجو به دلیل خطای مشتری نمی توانند به محتوای شما دسترسی پیدا کنند
خطاهای 4xx خطاهای مشتری هستند، به این معنی که URL درخواستی حاوی نحو بدی است یا قابل انجام نیست. یکی از رایج ترین خطاهای 4xx، خطای “404 – یافت نشد” است. اینها ممکن است به دلیل اشتباه تایپی URL، صفحه حذف شده یا تغییر مسیر شکسته، فقط برای نام بردن چند نمونه رخ دهند. هنگامی که موتورهای جستجو به 404 ضربه می زنند، نمی توانند به URL دسترسی پیدا کنند. وقتی کاربران به 404 ضربه می زنند، ناامید می شوند و می روند.
کدهای 5xx: زمانی که خزنده های موتور جستجو به دلیل خطای سرور نمی توانند به محتوای شما دسترسی پیدا کنند
خطاهای 5xx خطاهای سرور هستند، به این معنی که سروری که صفحه وب روی آن قرار دارد نتوانست درخواست جستجوگر یا موتور جستجو برای دسترسی به صفحه را برآورده کند. در گزارش «خطای خزیدن» کنسول جستجوی گوگل، یک برگه به این خطاها اختصاص داده شده است. اینها معمولاً به این دلیل اتفاق میافتند که زمان درخواست URL به پایان رسیده است، بنابراین Googlebot درخواست را رها کرد. برای کسب اطلاعات بیشتر درباره رفع مشکلات اتصال سرور، اسناد Google را مشاهده کنید.
خوشبختانه، راهی وجود دارد که هم به جستجوگران و هم به موتورهای جستجو بگویید صفحه شما جابجا شده است – تغییر مسیر 301 (دائمی).
فرض کنید صفحه ای را از example.com/young-dogs/ به example.com/puppies/ منتقل می کنید. موتورهای جستجو و کاربران به یک پل برای عبور از URL قدیمی به آدرس جدید نیاز دارند. آن پل یک تغییر مسیر 301 است.
کد وضعیت 301 به خودی خود به این معنی است که صفحه برای همیشه به مکان جدیدی منتقل شده است، بنابراین از هدایت کردن URL ها به صفحات نامرتبط اجتناب کنید – URL هایی که محتوای URL قدیمی واقعاً در آنها وجود ندارد. اگر صفحهای برای یک جستار رتبهبندی شود و شما آن را به یک URL با محتوای متفاوت ۳۰۱ کنید، ممکن است در رتبهبندی آن افت کند زیرا محتوایی که آن را به آن جستجوی خاص مرتبط کرده است دیگر وجود ندارد. 301 ها قدرتمند هستند – URL ها را مسئولانه جابجا کنید!
شما همچنین گزینه 302 تغییر مسیر یک صفحه را دارید، اما این باید برای جابجایی های موقت و در مواردی که انتقال ارزش لینک آنچنان نگران کننده نیست، رزرو شود. 302 ها به نوعی مانند یک انحراف جاده هستند. شما به طور موقت ترافیک را از طریق یک مسیر خاص کنترل می کنید، اما برای همیشه اینطور نخواهد بود.
منبع: MOZ