موتورهای جستجو گوگل چگونه کار می کنند: Crawling

search engine crawler

همانطور که در فصل 1 اشاره کردیم، موتورهای جستجو، پاسخگو هستند. آنها برای کشف، درک و سازماندهی محتوای اینترنت به منظور ارائه مرتبط ترین نتایج به سؤالاتی که جستجوگران می پرسند وجود دارند.
برای نمایش در نتایج جستجو، ابتدا محتوای شما باید برای موتورهای جستجو قابل مشاهده باشد. مسلماً این مهمترین قطعه از پازل SEO است: اگر سایت شما پیدا نشد، هیچ راهی وجود ندارد که در SERPs (صفحه نتایج موتور جستجو) ظاهر شوید.

موتورهای جستجو چگونه کار می کنند؟

موتورهای جستجو از طریق سه عملکرد اصلی کار می کنند:

Crawling: اینترنت را برای یافتن محتوا جستجو می‌کند، کد یا محتوا را برای هر URL که پیدا می‌کنند جستجو می‌کند.

Indexing: محتوای یافت شده در طول فرآیند خزیدن را ذخیره و سازماندهی می‌شود. هنگامی که یک صفحه در ایندکس قرار می گیرد، در حال اجرا است تا در نتیجه به جستجوهای مربوطه نمایش داده شود.

Ranking: محتوایی را ارائه دهید که به بهترین وجه به پرسش جستجوگر پاسخ می‌دهد، به این معنی که نتایج بر اساس مرتبط‌ترین تا کم‌مرتبط‌تر مرتب‌سازی می‌شوند.

What is search engine crawling

خزش یا کرال موتور جستجو چیست؟

خزیدن فرآیند اکتشاف است که در آن موتورهای جستجو تیمی از ربات ها (معروف به خزنده crawler یا عنکبوت spider) را برای یافتن محتوای جدید و به روز می فرستند. محتوا می تواند متفاوت باشد، می تواند یک صفحه وب، یک تصویر، یک ویدیو، یک PDF و … باشد، اما صرف نظر از قالب، محتوا توسط لینک‌ها کشف می شود.
Googlebot با جذب چند صفحه وب شروع به کار می کند و سپس پیوندهای موجود در آن صفحات وب را برای یافتن URL های جدید دنبال می کند. با خزش در این مسیر از پیوندها، خزنده می تواند محتوای جدیدی را پیدا کند و آن را به فهرست خود به نام Caffeine – پایگاه دیتا عظیمی از URL های کشف شده، اضافه کند تا بعداً زمانی که جستجوگر به دنبال اطلاعاتی است که محتوای موجود در آن URL است بازیابی شود.

شاخص موتور جستجو چیست؟

موتورهای جستجو اطلاعاتی را که در یک فهرست پیدا می‌کنند، پردازش می‌کنند و ذخیره می‌کنند، یک پایگاه داده عظیم از تمام محتوایی که کشف کرده‌اند و به‌نظر می‌رسد آنقدر خوب است که به جستجوگران ارائه شود.

رتبه بندی موتورهای جستجو

هنگامی که شخصی جستجویی را انجام می دهد، موتورهای جستجو فهرست آنها را برای محتوای بسیار مرتبط بررسی می کنند و سپس آن محتوا را به امید حل سؤال جستجوگر سفارش می دهند. این ترتیب نتایج جستجو بر اساس ارتباط به عنوان رتبه بندی شناخته می شود. به طور کلی، می‌توانید فرض کنید که هر چه یک وب‌سایت رتبه‌بندی بالاتری داشته باشد، موتور جستجو مرتبط‌تر فکر می‌کند که آن سایت با جستجو مرتبط است.
این امکان وجود دارد که خزنده های موتورهای جستجو را از قسمتی یا تمام سایت خود مسدود کنید یا به موتورهای جستجو دستور دهید تا از ذخیره برخی صفحات در فهرست خود اجتناب کنند. در حالی که می‌تواند دلایلی برای انجام این کار وجود داشته باشد، اگر می‌خواهید محتوای شما توسط جستجوگران پیدا شود، ابتدا باید مطمئن شوید که برای خزنده‌ها قابل دسترسی است و قابل ایندکس است. در غیر این صورت، به همان اندازه نامرئی است.

Crawling: آیا موتورهای جستجو می توانند صفحات شما را پیدا کنند؟

همانطور که یاد گرفتید، اطمینان از اینکه سایت شما کرال شده و ایندکس می شود، پیش نیاز نمایش در SERP است. اگر قبلاً یک وب سایت دارید، ممکن است ایده خوبی باشد که با دیدن تعداد صفحات شما در فهرست شروع کنید. این اطلاعات بینش خوبی در مورد اینکه آیا گوگل در حال خزیدن و یافتن همه صفحاتی است که می‌خواهید پیدا می‌کند و هیچ کدام را که شما نمی‌خواهید به دست می‌دهد.

یکی از راه‌های بررسی صفحات ایندکس شده، “site:yourdomain.com” است که یک اپراتور جستجوی پیشرفته است. به گوگل سر بزنید و “site:yourdomain.com” را در نوار جستجو تایپ کنید. این نتایج نتایجی را که گوگل در فهرست خود برای سایت مشخص شده دارد، نشان می دهد:

What is search engine crawling

تعداد نتایجی که گوگل نمایش می دهد (به «درباره XX نتایج» در بالا مراجعه کنید) دقیق نیست، اما به شما یک ایده کامل از اینکه کدام صفحات در سایت شما ایندکس شده اند و چگونه در حال حاضر در نتایج جستجو نشان داده می شوند، می دهد.
برای نتایج دقیق تر، گزارش Index Coverage را در Google Search Console نظارت کرده و از آن استفاده کنید. اگر در حال حاضر ندارید، می‌توانید برای یک حساب Google Search Console رایگان ثبت نام کنید. با استفاده از این ابزار می‌توانید نقشه‌های سایت خود را برای سایت خود ارسال کنید و نظارت کنید که چه تعداد از صفحات ارسالی واقعاً به فهرست گوگل اضافه شده‌اند.
اگر در هیچ کجای نتایج جستجو نمایش داده نمی‌شوید، چند دلیل ممکن وجود دارد:
سایت شما کاملاً جدید است و هنوز خزیده نشده است.
سایت شما از هیچ وب سایت خارجی پیوند داده نشده است.
ناوبری سایت شما خزیدن موثر آن را برای ربات سخت می کند.
سایت شما حاوی کدهای اساسی به نام دستورالعمل های خزنده است که موتورهای جستجو را مسدود می کند.
سایت شما توسط گوگل به دلیل تاکتیک های اسپم جریمه شده است.

به موتورهای جستجو بگویید که چگونه سایت شما را کرال کنند

 

اگر از گوگل سرچ کنسول یا اپراتور جستجوی پیشرفته “site:domain.com” استفاده کرده اید و متوجه شده اید که برخی از صفحات مهم شما در فهرست گم شده اند و یا برخی از صفحات بی اهمیت شما به اشتباه ایندکس شده اند، بهینه سازی هایی وجود دارد که می توانید انجام دهید. پیاده سازی کنید تا ربات گوگل را بهتر هدایت کنید که می خواهید محتوای وب شما چگونه خزیده شود. به موتورهای جستجو بگویید که چگونه سایت شما را بخزند، می تواند به شما کنترل بهتری بر آنچه در ایندکس ختم می شود، بدهد.
بیشتر مردم به این فکر می کنند که گوگل می تواند صفحات مهم آنها را پیدا کند، اما فراموش کردن این موضوع آسان است که احتمالاً صفحاتی وجود دارند که نمی خواهید Googlebot آنها را پیدا کند. این موارد ممکن است شامل مواردی مانند URL های قدیمی با محتوای نامناسب، URL های تکراری (مانند پارامترهای مرتب سازی و فیلتر کردن برای تجارت الکترونیک)، صفحات کد تبلیغاتی ویژه، صفحات مرحله بندی یا آزمایشی و غیره باشد.
برای اینکه Googlebot را از صفحات و بخش های خاصی از سایت خود دور کنید، از robots.txt استفاده کنید.

Robots.txt

فایل‌های Robots.txt در دایرکتوری ریشه وب‌سایت‌ها (مثلاً yourdomain.com/robots.txt) قرار دارند و نشان می‌دهند که موتورهای جستجوی سایت شما کدام بخش‌ها را باید و نباید کرال کنند، و همچنین سرعت خزیدن در سایت شما را نشان می‌دهد از طریق دستورالعمل های خاص robots.txt.

نحوه برخورد Googlebot با فایل‌های robots.txt

اگر Googlebot نتواند یک فایل robots.txt برای یک سایت پیدا کند، به خزیدن در سایت ادامه می دهد.
اگر Googlebot یک فایل robots.txt برای یک سایت پیدا کند، معمولاً از پیشنهادات پیروی می کند و به خزیدن در سایت ادامه می دهد.
اگر Googlebot هنگام تلاش برای دسترسی به فایل robots.txt سایت با خطایی مواجه شود و نتواند تشخیص دهد که آیا این فایل وجود دارد یا نه، در سایت نمی خزند.

همه ربات های وب از robots.txt پیروی نمی کنند. افراد با نیت بد (به عنوان مثال، e-mail address scrapers) ربات هایی می سازند که از این پروتکل پیروی نمی کنند. در واقع، برخی از افراد از فایل‌های robots.txt برای پیدا کردن جایی که محتوای خصوصی خود را قرار داده‌اید، استفاده می‌کنند. اگرچه ممکن است منطقی به نظر برسد که خزنده ها را از صفحات خصوصی مانند صفحات ورود و مدیریت مسدود کنید تا در فهرست نشان داده نشوند، قرار دادن مکان آن URL ها در یک فایل robots.txt در دسترس عموم نیز به این معنی است که افراد دارای اهداف مخرب می تواند راحت تر آنها را پیدا کند. بهتر است این صفحات را NoIndex کنید و آنها را در پشت فرم ورود قرار دهید تا اینکه آنها را در فایل robots.txt خود قرار دهید.

تعریف پارامترهای URL در GSC

برخی از سایت ها (متداول ترین در تجارت الکترونیک) با افزودن پارامترهای خاصی به URL ها، محتوای یکسانی را در چندین URL مختلف در دسترس قرار می دهند. اگر تا به حال به صورت آنلاین خرید کرده اید، احتمالاً جستجوی خود را از طریق فیلترها محدود کرده اید. برای مثال، می‌توانید «کفش» را در آمازون جستجو کنید و سپس جستجوی خود را بر اساس اندازه، رنگ و سبک اصلاح کنید. هر بار که اصلاح می کنید، URL کمی تغییر می کند:

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id=32&highlight=green+dress&cat_id=1&sessionid=123$affid=43

چگونه گوگل می داند که کدام نسخه از URL را به جستجوگران ارائه دهد؟ گوگل به تنهایی کار بسیار خوبی در تعیین URL نماینده انجام می دهد، اما می توانید از ویژگی پارامترهای URL در گوگل سرچ کنسول استفاده کنید تا به گوگل بگویید دقیقاً می خواهید آنها با صفحات شما چگونه رفتار کنند. اگر از این ویژگی برای گفتن به Googlebot استفاده می‌کنید که «هیچ نشانی‌های وب با پارامتر ____ را کرال نکند»، در واقع می‌خواهید این محتوا را از Googlebot پنهان کنید، که می‌تواند منجر به حذف آن صفحات از نتایج جستجو شود. اگر این پارامترها صفحات تکراری ایجاد می کنند، این همان چیزی است که می خواهید، اما اگر می خواهید این صفحات ایندکس شوند، ایده آل نیست.

آیا خزنده ها می توانند تمام محتوای مهم شما را پیدا کنند؟

اکنون که چند تاکتیک برای اطمینان از دوری خزنده‌های موتور جستجو از محتوای بی‌اهمیت شما می‌دانید، بیایید با بهینه‌سازی‌هایی آشنا شویم که می‌توانند به Googlebot در یافتن صفحات مهم شما کمک کنند.
گاهی اوقات یک موتور جستجو می‌تواند بخش‌هایی از سایت شما را با خزیدن پیدا کند، اما صفحات یا بخش‌های دیگر ممکن است به دلایلی مبهم باشند. مهم است که مطمئن شوید موتورهای جستجو قادرند تمام محتوایی را که می‌خواهید نمایه شود، و نه فقط صفحه اصلی شما را کشف کنند.

آیا محتوای شما در پشت فرم های ورود پنهان است؟

اگر از کاربران بخواهید قبل از دسترسی به محتوای خاصی وارد سیستم شوند، فرم ها را پر کنند یا به نظرسنجی ها پاسخ دهند، موتورهای جستجو آن صفحات محافظت شده را نمی بینند. یک خزنده قطعا وارد سیستم نمی شود.

آیا به فرم های جستجو متکی هستید؟

روبات ها نمی توانند از فرم های جستجو استفاده کنند. برخی از افراد بر این باورند که اگر یک جعبه جستجو در سایت خود قرار دهند، موتورهای جستجو می توانند هر چیزی را که بازدیدکنندگان آنها جستجو می کنند، پیدا کنند.

آیا متن در محتوای غیر متنی پنهان است؟

فرم‌های رسانه غیر متنی (تصاویر، ویدئو، فایل‌های GIF و غیره) نباید برای نمایش متنی که می‌خواهید نمایه شود استفاده شود. در حالی که موتورهای جستجو در تشخیص تصاویر بهتر می شوند، هیچ تضمینی وجود ندارد که آنها بتوانند آن را بخوانند و درک کنند. همیشه بهتر است متنی را در نشانه گذاری <HTML> صفحه وب خود اضافه کنید.

آیا موتورهای جستجو می توانند ناوبری سایت شما را دنبال کنند؟

همانطور که یک خزنده باید سایت شما را از طریق پیوندهای سایت های دیگر کشف کند، به مسیری از پیوندها در سایت شما نیاز دارد تا آن را از صفحه ای به صفحه دیگر هدایت کند. اگر صفحه‌ای دارید که می‌خواهید موتورهای جستجو پیدا کنند، اما از هیچ صفحه دیگری به آن پیوند داده نشده است، به همان اندازه نامرئی است. بسیاری از سایت‌ها این اشتباه مهم را مرتکب می‌شوند که ناوبری خود را به گونه‌ای تنظیم می‌کنند که برای موتورهای جستجو غیرقابل دسترس است، و مانع از توانایی آنها در فهرست شدن در نتایج جستجو می‌شود.
اشتباهات رایج ناوبری که می تواند خزنده ها را از دیدن همه سایت شما باز دارد:
داشتن یک ناوبری تلفن همراه که نتایج متفاوتی نسبت به ناوبری دسکتاپ شما نشان می دهد
هر نوع سرچ که آیتم های منو در HTML نیستند، مانند سرچ های دارای جاوا اسکریپت. گوگل در خزیدن و درک جاوا اسکریپت بسیار بهتر شده است، اما هنوز یک فرآیند عالی نیست. راه مطمئن تر برای اطمینان از یافتن، درک و نمایه شدن چیزی توسط گوگل، قرار دادن آن در HTML است.
شخصی‌سازی یا نشان دادن پیمایش منحصربه‌فرد به یک نوع خاص از بازدیدکنندگان در مقابل دیگران، ممکن است به نظر خزنده موتور جستجو را پنهان کند.
فراموش کردن پیوند دادن به یک صفحه اصلی در وب سایت خود از طریق ناوبری – به یاد داشته باشید، پیوندها مسیرهایی هستند که خزنده ها برای رسیدن به صفحات جدید دنبال می کنند!
به همین دلیل ضروری است که وب سایت شما دارای ناوبری واضح و ساختار پوشه URL مفید باشد.

آیا معماری اطلاعات منظمی دارید؟

معماری اطلاعات عبارت است از سازماندهی و برچسب گذاری محتوا در یک وب سایت برای بهبود کارایی و قابلیت یافتن کاربران. بهترین معماری اطلاعات شهودی است، به این معنی که کاربران نباید خیلی سخت فکر کنند تا در وب سایت شما جریان پیدا کنند یا چیزی پیدا کنند.

آیا از نقشه سایت استفاده می کنید؟

نقشه سایت دقیقاً همان چیزی است که به نظر می رسد: لیستی از URL ها در سایت شما که خزنده ها می توانند از آنها برای کشف و فهرست بندی محتوای شما استفاده کنند. یکی از ساده‌ترین راه‌ها برای اطمینان از یافتن صفحه‌های دارای اولویت گوگل توسط گوگل، ایجاد فایلی مطابق با استانداردهای گوگل و ارسال آن از طریق گوگل سرچ کنسول است. در حالی که ارسال نقشه سایت جایگزین نیاز به ناوبری خوب سایت نمی شود، مطمئناً می تواند به خزنده ها کمک کند تا مسیری را برای همه صفحات مهم شما دنبال کنند.
اگر سایت شما سایت دیگری ندارد که به آن پیوند داده شده باشد، هنوز هم ممکن است بتوانید با ارسال نقشه سایت XML خود در گوگل سرچ کنسول، آن را نمایه کنید. هیچ تضمینی وجود ندارد که URL ارسال شده را در فهرست خود قرار دهند، اما ارزش امتحان کردن را دارد!

آیا خزنده ها هنگام تلاش برای دسترسی به URL های شما با خطا مواجه می شوند؟

در فرآیند خزیدن URL ها در سایت شما، خزنده ممکن است با خطاهایی مواجه شود. می‌توانید به گزارش «خطاهای خزیدن» گوگل سرچ کنسول بروید تا نشانی‌های اینترنتی را که ممکن است این اتفاق بیفتد شناسایی کنید این گزارش خطاهای سرور را به شما نشان می‌دهد و خطاهای پیدا نشده را به شما نشان می‌دهد. فایل‌های گزارش سرور همچنین می‌توانند این را به شما نشان دهند و همچنین گنجینه‌ای از اطلاعات دیگر مانند فرکانس خزیدن، اما از آنجا که دسترسی به فایل‌های گزارش سرور و تشریح آن تاکتیک پیشرفته‌تری است، در راهنمای مبتدیان به طور طولانی درباره آن بحث نمی‌کنیم. اگرچه می توانید در اینجا بیشتر در مورد آن بیاموزید.
قبل از اینکه بتوانید کار معناداری با گزارش خطای خزیدن انجام دهید، مهم است که خطاهای سرور و خطاهای “یافت نشد” را درک کنید.

کدهای 4xx: زمانی که خزنده های موتور جستجو به دلیل خطای مشتری نمی توانند به محتوای شما دسترسی پیدا کنند

خطاهای 4xx خطاهای مشتری هستند، به این معنی که URL درخواستی حاوی نحو بدی است یا قابل انجام نیست. یکی از رایج ترین خطاهای 4xx، خطای “404 – یافت نشد” است. اینها ممکن است به دلیل اشتباه تایپی URL، صفحه حذف شده یا تغییر مسیر شکسته، فقط برای نام بردن چند نمونه رخ دهند. هنگامی که موتورهای جستجو به 404 ضربه می زنند، نمی توانند به URL دسترسی پیدا کنند. وقتی کاربران به 404 ضربه می زنند، ناامید می شوند و می روند.

کدهای 5xx: زمانی که خزنده های موتور جستجو به دلیل خطای سرور نمی توانند به محتوای شما دسترسی پیدا کنند

خطاهای 5xx خطاهای سرور هستند، به این معنی که سروری که صفحه وب روی آن قرار دارد نتوانست درخواست جستجوگر یا موتور جستجو برای دسترسی به صفحه را برآورده کند. در گزارش «خطای خزیدن» کنسول جستجوی گوگل، یک برگه به این خطاها اختصاص داده شده است. اینها معمولاً به این دلیل اتفاق می‌افتند که زمان درخواست URL به پایان رسیده است، بنابراین Googlebot درخواست را رها کرد. برای کسب اطلاعات بیشتر درباره رفع مشکلات اتصال سرور، اسناد Google را مشاهده کنید.

خوشبختانه، راهی وجود دارد که هم به جستجوگران و هم به موتورهای جستجو بگویید صفحه شما جابجا شده است – تغییر مسیر 301 (دائمی).
فرض کنید صفحه ای را از example.com/young-dogs/ به example.com/puppies/ منتقل می کنید. موتورهای جستجو و کاربران به یک پل برای عبور از URL قدیمی به آدرس جدید نیاز دارند. آن پل یک تغییر مسیر 301 است.
کد وضعیت 301 به خودی خود به این معنی است که صفحه برای همیشه به مکان جدیدی منتقل شده است، بنابراین از هدایت کردن URL ها به صفحات نامرتبط اجتناب کنید – URL هایی که محتوای URL قدیمی واقعاً در آنها وجود ندارد. اگر صفحه‌ای برای یک جستار رتبه‌بندی شود و شما آن را به یک URL با محتوای متفاوت ۳۰۱ کنید، ممکن است در رتبه‌بندی آن افت کند زیرا محتوایی که آن را به آن جستجوی خاص مرتبط کرده است دیگر وجود ندارد. 301 ها قدرتمند هستند – URL ها را مسئولانه جابجا کنید!
شما همچنین گزینه 302 تغییر مسیر یک صفحه را دارید، اما این باید برای جابجایی های موقت و در مواردی که انتقال ارزش لینک آنچنان نگران کننده نیست، رزرو شود. 302 ها به نوعی مانند یک انحراف جاده هستند. شما به طور موقت ترافیک را از طریق یک مسیر خاص کنترل می کنید، اما برای همیشه اینطور نخواهد بود.

منبع: MOZ

پست های مرتبط

مطالعه این پست ها رو از دست ندین!
تیم طراحی سایت

انتخاب تیم مناسب طراحی سایت

آنچه در این پست میخوانید معیار های انتخاب شرکت طراحی سایتمعیار های انتخاب شرکت طراحی سایت خوب کدام هستند؟نتیجه گیری…

بیشتر بخوانید
طراحی سایت در کرمان

تاثیر طراحی سایت در کسب و کارها

آنچه در این پست میخوانید طراحی سایت و عوامل موثر آن بر کسب و کار یک وب سایت این توانایی…

بیشتر بخوانید
instagram-reels

کاربرد ریلز اینستاگرام در کسب‌ و‌ کار

آنچه در این پست میخوانید مزایای استفاده از ریلز اینستاگرام برای کسب‌و‌کارریلز باعث افزایش دسترسی و تعامل می‌شودریلز اینستاگرام را…

بیشتر بخوانید

نظرات

سوالات و نظراتتون رو با ما به اشتراک بذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

درباره شرکت طراحی سایت پرانتز

شرکت طراحی سایت پرانتز یک شرکت معتبر و حرفه‌ای در زمینه طراحی و توسعه وبسایت‌ها در شهر کرمان است. این شرکت با برخورداری از تیمی مجرب و متخصص در زمینه طراحی وبسایت، به ارائه خدماتی با کیفیت و برتر در حوزه طراحی سایت می‌پردازد. از ابتدای تأسیس، هدف اصلی این شرکت ارائه راهکارهای بهینه و با کیفیت در زمینه ساخت و توسعه وبسایت‌های سازگار با اصول سئویی بوده است.

logo-samandehi