آموزش سئو
خزنده های موتورهای جستجو - web crawler

همه چیز درباره خزنده‌های موتورهای جستجو

فهرست مطالب

خزنده‌ های موتورهای جستجو (web crawler) یکی از ساده ترین و در عین حال پیچیده ترین مفهوم موتورهای جستجو به شمار میروند. سادگی عملکرد خزنده های گوگل به این دلیل است که همه ما میدانیم که موتورهای جستجو پر قدرت جهان ( گوگل، بینگ ، یاهو و…) هر کدام دارای ربات های خزنده مخصوص به خود هستند. و عملکردشان تقریبا یکسان است. ولی نحوه جستجو و نوع الگوریتم های مخصوص به خودشان را دارند( مثل دستور پخت اکبر جوجه خصوص هر رستوران).

نحوه عملکرد خزنده های موتورهای جستجو

از این به بعد هرجا کلمه موتور جستجو مشاهده کردید بدانید منظور ما از خزنده‌ های موتورهای جستجو یا ربات های موتورهای جستجو همان ربات های خزنده گوگل است. از آنجایی که گوگل به عنوان بزرگترین موتور جستجوی وب جهان در ایران نیز طرفداران زیادی دارد. لذا در ادامه این نوشته نحوه عملکرد این خزنده ها را به شما خواهیم گفت.

برای اینکه ربات های خزنده گوگل بتوانند یه مطالب وب سایت شما دسترسی داشته باشند لازم است تا شما این اجازه را به آنها بدهید. برای این منظور روش های مختلفی برای ایجاد دسترسی به وب سایت شما توسط گوگل وجود دارد . کراول ها یا ربات های گوگل به صورت متوالی لینک های سایت شما را بررسی میکنند. و هر زمان به یک لینک جدید برخورد کنند آن را به لیست خود اضافه کرده . تا بعدا به آن سر بزنند و به اصطلاح آن را ایندکس کنند.

هر زمانی که مطلبی جدید در سایت منتشر میشود کار خزنده‌های گوکل یا web crawler آغاز میشود. کار این خزنده ها جمع آوری کلمات کلیدی مرتبط با هر صفحه است. و سپس آن را به پایگاه داده عظیم خود اضافه میکنند. هر چند خزنده‌ های موتورهای جستجو مثل گوگل ، بینگ و… با هم متفاوت هستند. ولی عملکرد آنها با هم یکسان است. به همین دلیل ما نیازی به شناخت جزئیات web crawler نداریم و صرفا کار نهایی آنها برای ما مهم است.

هرگاه کاربر کلمه کلیدی خاصی را در موتور جستجو سرچ کند. اطلاعات جمع آوری شده توسط web crawler توسط الگوریتیم های خاصی آنها را از پایگاه داده واکشی کرده به کاربر نمایش داده میشود.

خزنده های موتورهای جستجو crawler google

مفهوم ایندکس شدن صفحات در گوگل

همانطوری که گفتیم هدف از دسترسی خزنده‌های گوکل به وب سایت شما ایندکس کردن صفحات و نوشته های سایت شما است. تا این نوشته ها در نتایج جستجو گوگل به کاربران نمایش داده شده و در نتیجه ترافیک سایت شما افزیش پیدا کند.

ایندکس شدن صفحات سایت در گوگل به معنی اضافه شدن این صفحه به صفحات قابل نمایش در گوگل است. به همین منظور گوگل به صورت متوالی تمام صفحات سایت شما را بررسی میکند. اگر بر طبق معیارهای ایندکس گوگل باشند آن را ایندکس کرده، در لیست صفحات قابل نمایش ذخیره میکند.

ایندکس کردن صفحات سایت با استفاده از نقشه سایت

یکی از روش های پرکاربرد برای ایندکس کردن صفحات سایت افزودن نقشه سایت به گوگل است. نقشه سایت یک فایل است که تمامی آدرس های موجود در سایت را درون خود دارد. عموما نقشه سایت یک فایل از جنس XML است.

از آنجایی که نقشه سایت به آخرین بروزرسانی اطلاعات صفحات و نوشته های سایت دسترسی دارد.لذا با معرفی نقشه سایت میتوانید به ایندکس شدن صفحات سایت خود در گوگل کمک کنید. به این تریتیب خزنده‌های گوکل از طریق نقشه سایت و لینک های داخلی داده شده به صفحات، ارتباط بین صفحات را کشف کرده و آنها را پیمایش و ذخیره(ایندکس) میکند.

نحوه کنترل کردن خزنده های موتورهای جستجو

همانطور که گفتیم نحوه عملکرد خزنده های موتورهای جستجو( web crawler) برای ما مهم نیست. ولی نتیجه آن برای ما مهم است چرا که برای شروع سئو سایت لازم است تا بدانیم که صفحات چگونه در گوگل ایندکس میشوند. مدیران سایت توسط فایل robots.txt که در سرور سایت موجود است میتوانند نحوه خزیدن این ربات ها را کنترل کننده. به این ترتیب مدیران میتوانند مشخص کنند که خزند های گوگل کدام صفحات را ایندکس کنند و کدام یک از صفحات نیاز به ایندکس ندارد.

درون فایل robots.txt دستورالعمل هایی وجود دارد که میتوانید مشخص کنید که چه صفحاتی از وب سایت را ایندکس کنند. همانطور که گفتیم جزئیات نحوه عملکرد خزنده‌های گوکل برای ما مهم نیست. ولی باید درک کنیم که چه محتوایی برای web crawler مهم است تا بتوانیم تنظیمات درستی برای نحوه خزیدن این ربات ها در صفحات وب سایت خود داشته باشیم.

دلایل حذف شدن صفحات ایندکس شد از گوگل

در ادامه روش کار خزنده های موتورهای جستجو چرایی حذف شدن صفحات ایندکس شده در موتور جستجو گوگل را به شما خواهیم گفت. دلایلی مختلفی وجود دارد که باعث میشود صفحات سایت شما ایندکس نشوند و یا از صفحات ایندکس شده حذف شوند.

1- URL سایت خطای (4XX not found) یا خطای سرور (5XX) را باز می گرداند :

از آنجایی که موتورهای جستجو تمایل به نشان دادن صفحات خراب و با نوشته های غیر قابل دسترس به کاربران ندارند. دلیل این امر هم آن است که برای اعتبار نتایج خود ارزش زیادی قابل هستند. بنابر این اگر وب سایت شما به هر دلیل خطای سرور و یا پیدا نشدن لینک بدهد ممکن است صفحه مورد نظر از لیست نتایج گوگل حذف شده و به اصلاح No Index شود.

2- به URL مگاتگ noindex اضافه شده باشد:

برخی از سایت ها  مثل فروشگاه های اینترنتی مدیران وب سایت ها تمایلی به ایندکس کردن همه صفحات خود ندارند. و صرفا صفحاتی که از نظر تجاری ارزشمند تر هستند ایندکس میکنند. به همین منظور مدیران سایت به وسیله افزونه های کمکی یا یک قطعه کد برخی صفحات را No Index  میکنند. این عمل به معنی آن است که گوگل تلاشی برای افزودن این صفحات به لیست نمایش به کاربران نخواهد کرد.

3- پنالتی شدن URL توسط ربات های موتور جستجو:

یکی از دلایلی که میتواند باعث خذف شدن صفحات ایندکس شده سایت شود. عدم رعایت دستور العمل های گوگل است. مثلا ممکن است صفحات سایت شما برای تلفن های همراه بهینه نشده باشد و یا سایت شما دچار ایراد شده باشد که به درستی به کاربر نمایش داده نشود. از آنجایی که گوگل تلاش میکند تا نتایج بهتر و با کیفیت تر به کاربران نمایش دهد. لذا سایت شما از نظر ربات های موتور جستجو گوگل غیر قابل نمایش تلقی شده و  صفحات سایت شما از حالت ایندکس خارج میشوند.

4- نیاز به رمز داشتن صفحات : 

اگر ربات های خزنده گوگل برای دسترسی به لینک یک صفحه سایت نیاز به رمز عبور داشته باشند. و به راحتی نتوانند به لینک صفحات دسترسی پیدا کنند آن را از لیست ایندکس خود حذف میکنند( البته در صورتی که قبلا ایندکس شده باشد. ولی اگر ایندکس نشده باشد آن را ایندکس نخواهند کرد).

سخن پایانی در مورد عملکرد خزنده های موتورهای جستجو

هدف از نگارش این مقاله آشنا نمود شما با نحوه عملکرد ایندکس صفحات توسط توسط خزنده‌های موتورهای جستجو یا همان web crawler است. دلایلی که میتوانست باعث شود صفحات وب سایت شما ایندکس نشوند نیز برای شما شرح دادیم. همانظور اشاره کردیم فایل  robots.txt که درون سرور قرار دادرد حاوی دستورالعمل هایی است که مدیران وب سایت میتوانند نحوه خزیدن web crawler را در سایت مشخص نمیاند.

اگر نیاز به مشاوره سئو داشتید میتوانید با شماره های درج شده در سایت تماس بگیرید. و اگر درباره هر کدام از بخش های مقاله سوال داشتید میتوانید در کامنت ها مطرح کنید.

مطالب مرتبط را ببینید

جدیدترین الگوریتم گوگل

گوگل به طور مداوم الگوریتم‌های خود را برای بهبود کیفیت نتایج جستجو به‌روزرسانی می‌کند. در این مقاله، جدیدترین الگوریتم های گوگل را معرفی و توضیح می‌دهیم.   الگوریتم به روزرسانی محتوای مفید

مطالعه مقاله کامل
راهنمای تولید محتوا

راهنمای تولید محتوای جذاب

راهنمای تولید محتوا برای سایت در دنیای امروز، تولید محتوا یکی از مهم ترین فعالیت های کسب و کارهای آنلاین است. با تولید محتوای باکیفیت و جذاب، می توان مخاطبان زیادی را

مطالعه مقاله کامل

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

همین الان شمارتو ثبت کن بدون پرداخت هزینه مشاوره رایگان بگیر

از 20% تخفیف ویژه لذت ببر

مشاوره رایگان برا کسب و کارت دریافت کن