webcrawler

وب کراولر یا خزنده وب ( Web Crawler ) رباتی اینترنتی است که به طور خودکار اطلاعات وب سایت ها را مرور کرده و صفحات سایت را بر اساس معیارهای مختلف برای فهرست بندی در موتورهای جست وجو بررسی می کند. این ربات ها به صورت خودکار صفحات وب سایت ها را مرور و اطلاعات آن ها را جمع آوری می کنند. هدف این خزنده ها، ایندکس کردن صفحات وب در موتورهای جست وجو است تا کاربران به راحتی و با سرعت بالا به اطلاعات مورد نیاز خود دست پیدا کنند.
... [مشاهده متن کامل]

وظایف ربات های خزنده
قبل از هر چیز بهتر است ببینیم که وظیفه ی خزنده وب چیست. خیلی ساده اگر بخواهیم توضیح دهیم، نحوه کار Crawler به این صورت است که این ربات های فوق هوشمند، همه ی محتواهای منتشر شده در فضای اینترنت را دانلود و فهرست بندی می کنند. این فهرست کردن، همان مفهومی است که شما آن را با نامِ Index شدن صفحات وب می شناسید. هدف خزنده ها در این مرحله شناسایی صفحات و استخراج موضوعاتی است که در هر صفحه به آن ها پرداخته شده است.
نحوه کار خزنده وب، دقیقاً مثل یک مسئول یک کتابخانه ی نامنظم است که باید بین قفسه های مختلف کتاب گشت بزند، همه ی کتاب ها و موضوعشان را بررسی کند و دست آخر، همه ی این اطلاعات را جایی دسته بندی کند تا پیدا کردن کتاب ها ساده تر شود.
اگرچه مثال ارائه شده تا حدی نحوه کار Crawler را به تصویر می کشد، اما این کتابخانه با چالش هایی نیز مواجه است. برای مثال، تشخیص دقیق محتوای هر صفحه از کتاب فیزیکی یا وب سایت برای مسئول کتابخانه و خزنده وب دشوار است. نکته مهم دیگر این است که خزنده های وب از چه روش هایی برای یافتن صفحات استفاده می کنند؟ ربات های خزنده کارشان را با یک مجموعه ی خاص از صفحات وب شروع می کنند و سپس با دنبال کردن پیوندهای آن، صفحات دیگر را شناسایی می کنند و به همین ترتیب، شناسایی و ایندکس کردن صفحات دیگر هم انجام می شود.
چهار نمونه از انواع کراولر
بررسی ها نشان می دهد که تا ژانویه ۲۰۲۲، حدود ۱ زتابایت ( ۱ تریلیون گیگابایت ) محتوا روی اینترنت بارگذاری شده است. این یعنی اگر ربات های خزنده به داد انسان ها نرسند، ما بین، انبوهی از دیتا مدفون می شویم! به طورکلی کراولرهای وب، بر اساس نوع کاری که انجام می دهند، به چند دسته ی مختلف تقسیم بندی می شوند:
۱. کراولرهای عمومی ( General - Purpose Crawler )
کراولرهای عمومی خط شکنِ خزیدن در میان صفحات وب هستند. این کراولرها اطلاعات را به صورت گسترده از میانِ صفحات وب جمع آوری می کنند. احتمالاً اگر کسی از شما بپرسد که خزنده وب چیست، همین کراولرِ عمومی است که برای اولین بار به ذهن شما می آید. البته این پیش فرضِ ذهنی خیلی هم اشتباه نیست؛ چون کراولر اصلی موتورهای جستجو مثل گوگل بات یا بینگ بات، بیشتر دیتاهای خود را از همین کراولرها جمع آوری می کنند.
۲. کراولر بک لینک ( Backlink Crawler )
بک لینک کراولرها نوعی از خزنده های وب هستند که وظیفه ی شناسایی و جمع آوری تمام لینک های خارجی وب سایت شما را بر عهده دارند. گوگل هم در ساختار خود این کراولرها را دارد و اگر از طریق وب سایت های قدرتمند، به وب سایت شما لینک داده شود، به محتواهای منتشر شده توسط شما، اعتماد بیشتری می کند.
۳. کراولر مدیا ( Media Crawler )
احتمالاً شما هم شنیده اید که اضافه کردن محتواهای غیر متنی مثل عکس، ویدیو و یا پادکست، می تواند تاثیر قابل توجهی روی سئوی سایتِ شما داشته باشد. وظیفه ی رصد کردن این نوع از محتواها بر عهده ی Media Crawlerها است.
۴. کراولر محتوا ( Content Crawler )
کراولر محتوا یک قدم جلوتر از کراولر عمومی است و با تمرکز بر وب سایت شما به دنبالِ اخبار، مقالات و نوشته هایِ نابِ وبلاگتان می گردد و آن ها را با دقتِ بالا جمع آوری می کند.
چند خزنده وب فعال : Googlebot برای موتور جستجو گر گوگل، Slrup برای موتور جستجو گر یاهو و Bingbot برای موتور جستجو گربینگ را می توان نام برد.
جهت اطلاعات بیشتر یا تکمیل آن به "وب کراولر" در آبادیس مراجعه کنید.

+ عکس و لینک

پیشنهاد کاربران