خزنده اینترنت، ویژگی ها و محدودیت ها

خزنده اینترنت، ویژگی ها و محدودیت ها

خزنده اینترنت، ویژگی ها و محدودیت ها

ویژگی های خزنده اینترنت

خزنده اینترنت در اکثر موارد وابسته به موتورهای جستجو و سایت های ارائه دهنده اطلاعات عمده است.

این خزنده ها جهت گردآوری اطلاعات سایتها و به روز نگه داشتن این اطلاعات جهت ارائه به کاربران استفاده می شوند.

به همین منظور بازدید و به روز کردن اطلاعات را در بازه های زمانی منظم انجام می دهند.

برای بروز رسانی اطلاعات نیز موارد خاصی را باید بررسی و انجام دهند.

در نهایت مقایسه اطلاعات جدید و قدیم به خوبی صورت می گیرد.

 

همگام با فرمت های روز داده

خزنده اینترنت باید همواره با فرمت های روز همگام و هم راستا باشد.

در این حالت خزنده اینترنت همیشه با سیستم های کد گذاری و فرمت های جدید داده ها هم تراز است.

در نتیجه می تواند تمامی اطلاعات را پردازش نماید.

 

تشخیص و کنترل

از دیگر موارد مهم جهت بروز رسانی اطلاعات تشخیص موانع و کنترل آنهاست.

اینترنت شامل لینهای نامحدود به هم زنجیر شده و متصل است.

بسیاری از سرورها سایت ها از همین مسئله استفاده کرده و حفره هایی بنام تله عنکبوت ایجاد می کنند.

این حفره ها باعث سردرگمی و گمراه شدن خزنده اینترنت می شوند.

همچنین سبب انجام بازدید و حرکت در مسیر تکراری به صورت نا محدود می شود.

به عبارت دیگر خزنده اینترنت عملاً ناکارآمد می شود.

هدف از اینکار جلوگیری از دسترسی خزنده به اطلاعات خاص آن سایت است.

پس خزنده اینترنت باید بگونه ای طراحی شود تا تله ها و حفره ها را تشخیص داده و آنها را کنترل نماید.

گسترش

خزنده اینترنت باید گسترش پذیر باشد.

یعنی با افزایش حجم داده های ورودی برای پردازش، بتواند پهنای باند خروجی خود را گسترش دهد.

این امر موجبب تسرع در سرعت بارگذاری اطلاعات موتورهای جستجو می شود.

 

مدیریت فنی سایت

یکی دیگر از این موارد مدیریت فنی سایت ها است.

به همین منظور باید لینک های شکسته و کدهای HTML و CSS را مشخص، اعتبار سنجی و زنجیره آن را شناسایی کنند.
البته بعضی افراد خزنده اینترنت را به گونه ای طراحی کرده تا از اطلاعات سوء استفاده نمایند.

مثلاً آدرس های ایمیل استفاده کرده و به آنها هرزنامه یا Spam ارسال می کنند.

 

برای انجام مدیریت فنی در سایت ها نیاز به یک سری عملیات از طرف خزنده اینترنت است.

این عملیات جهت افزایش دقت و کیفیت تحلیل داده ها صورت می گیرد.

به این عملیات، ساده سازی آدرس گفته می شود.

هدف از این کار یکسان کردن آدرس لینکهای است که به خروجی مشابه ختم می شوند.

نتیجه آن جلوگیری از پردازش چند باره اطلاعات مشابه، کاهش زمان عملیات و بالا رفتم سرعت کار است.

 

مراحل عملیات ساده سازی آدرس

  1. تبدیل حروف بزرگ به حروف کوچک

HTTP://www.Example.com/ → http://www.example.com/

  1. افزودن / به آدرس

http:www.example.com → http://www.example.com/

  1. حذف کلمات ایندکس دایرکتوری

http://www.example.com/default.asp → http://www.example.com/

http://www.example.com/a/index.html → http://www.example.com/a

  1. بزرگ کردن حروف encode ( % )

http://www.example.com/a%b2 → http://www.example.com/a%B2

  1. حذف بخشهای زاید بعد از html

http://www.example.com/bar.html#section1 → http://www.example.com/bar.html

  1. حذف و تبدیل IP به دامنه

http://۲۰۸.۷۷.۱۸۸.۱۶۶/ → http://www.example.com/

  1. اعمال محدودیت بر روی پروتکل ها

https://www.example.com/ → http://www.example.com/

  1. حذف پورت های پیش فرض html

http://www.example.com:۸۰/bar.html → http://www.example.com/bar.html

  1. حذف / های تکراری

http:///www.example.com///bar.html → http://www.example.com/bar.html

  1. حذف نقطه های اضافه

http://www.example.com/../a/b/../c/./d.html → http://www.example.com/a/b/c/d.html

  1. حذف www از اول دامنه

http://www.example.com/ → http://example.com/

  1. مرتب کردن متغییرها

http://www.example.com/display?lang=en&article=fred → http://www.example.com/display?article=fred

  1. حذف متغییرهای اختیاری

http://www.example.com/display?id=123&fakefoo=fakebar

http://www.example.com/display?id=123

  1. حذف متغییرهای پیش فرض

http://www.example.com/display?id=&sort=ascending → http://www.example.com/display

  1. حذف علامت ?

http://www.example.com/display? → http://www.example.com/display

  1. استانداردکردن encoding کاراکترها

http://www.example.com/display?category=foo/bar+baz

http://www.example.com/display?category=foo%2Fbar%20baz

۱۳۹۷/۴/۴ ۱۶:۵۸:۲۴