خزنده وب یا Web Crawler چیست، معرفی اجمالی خزنده های شبکه اینترنتی

خزنده وب یا Web Crawler چیست، معرفی اجمالی خزنده های شبکه اینترنتی

خزنده وب یا Web Crawler چیست، معرفی اجمالی خزنده های شبکه اینترنتی

خزنده وب یا Web Crawler چیست

خزنده وب که در زبان انگلیسی به آن Web Crawler گفته می شود، در واقع نوعی برنامه و کد نویسی کامپیوتری است که در اینترنت وجود دارد.

بجز Crawler از نامهایی همچون ants ،automatic indexers ،bots ،spiders و robots نیز استفاده می شود. این کد نرم افزاری توسط سرور اصلی اینترنت یعنی گوگل راه اندازی شده اس

ت.

خزنده وب از طریق سرور های اطلاعاتی در شبکه اینترنتی فعالیت می کند.

وظیفه اصلی آنها بازدید منظم و مرتب صفحات و لایه های اینترنت و پردازش اطلاعات موجود در آن است. همچنین محتوای صفحات وب را نیز رتبه بندی کرده و درجه گذاری می نماید.

این رتبه بندی را تنها از طریق اطلاعات ایندکس شده و بر اساس کیفیت و ارزش محتوا انجام می دهد. با اینکار سرعت جستجو و بار گذاری اطلاعات به مراتب بیشتر شده و نتایج دقیق تری نیز یافت می شود.

خزنده وب

نحوه عمکرد

برای انجام بازدید سایت ها، سرور لیستی از آدرس های وب را در اختیار خزنده ها قرار می دهد.

سپس آنها با بررسی آدرس ها و دسترسی به کدهای HTML صفحات مربوطه، دسته ها، زیر دسته ها و پیوندهای مرتبط با آن را مشخص می کنند.

در گام بعد به صورت تک تک و جداگانه به بررسی و رتبه بندی آنها می پردازند. اصطلاحاً به این آدرس ها Seed گفته می شود.

این مراحل دائماً توسط خزنده وب تکرار شده و این روند به صورت دوره ای انجام می شود.

در واقع هر بار شما مطلب تازه ای را در سایت خود قرار داده و یا کلمه ای را جستجو می کنید، بازدید از سایت ها دوباره انجام می گردد.

این بازدید های مکرر سبب بالاتر رفتن رتبه و تراز سایت نیز می شود.

با استفاده از این بازدیدها میتوان بد افزارها و سایتهای آلوده و یا بدون استفاده را نیز شناسایی کرد.

معروف ترین ها

از معروف ترین خزنده های فعال در شبکه اینترنت میتوان به Googlebot و Bingbot اشاره کرد.

Googlebot در موتورهای سرور گوگل و Bingbot در موتورهای سرور بینگ فعالیت می کنند.

نحوه تشخیص

خزنده ها همیشه با استفاده از فیلدهای User agent در آدرسHTTP  مرورگر، خود را معرفی می‌کنند.

اگر شما مدیر یک سایت باشید می توانید با استفاده از Log Web سرور خود، لیستی از خزنده های فعال در سایت را مشاهده کنید.

فیلدهای User agent معمولاً شامل URL هستند که ریشه آن به سایت سازنده اشاره می‌کند.

اسپم ها

اسپم ها نیز نوعی خزنده به شمار می آیند.

اسپم ها و Crawler های مخرب موجود در اینترنت، عمدتاً فیلد User agent را به صورت غیر واقعی نشان می دهند.

یا از اطلاعاتی همچون آدرس یک مرورگر یا سرور ادمین استفاده می‌کنند.

 

خدمات گروه داده پردازی صدر

گروه داده پردازی صدر با طراحی انواع خزنده وب آماده رفع نیاز مشتریان با نمونه کارهای قدرتمند است.

By | ۱۳۹۷/۳/۱۱ ۶:۲۳:۴۳ خرداد ۱۱ام, ۱۳۹۷|کرال|۰ Comments