وب اسکریپینگ (web scraping) و وب کراولینگ (web crawling)، اغلب اوقات بجای یکدیگر مورد استفاده قرار می گیرند. از هر دو آن ها در داده کاوی استفاده می شود، مگر نه؟ بله، اما این دو، با هم یکسان نیستند. کراولینگ چیست ؟ فرق کراولر و اسکریپر ؟ فرق crawler و scraper چیست ؟

فهرست مطالب

در این مقاله، به ترجمه تیم هم رویش، به تفاوت های کلیدی و مقایسه وب اسکریپینگ و وب کراولینگ اشاره می کنیم. امیدواریم این مقاله به شما کمک کند تا متوجه شوید کدام یک به شما و کارتان مرتبط است و از کدام یک باید استفاده کنید.

 

فرق-crawler-و-scraper-مقایسه-وب-کراولینگ-و-وب-اسکریپینگ-مقایسه-web-crawling-و-web-scaraping-تفاوت-بین-ربات-عنکبوتی-و-ربات-خزنده-کراولینگ-چیست-فرق-کراولر-و-اسکریپر-هم-رویش
مقایسه وب اسکریپینگ و وب کراولینگ

 

مقایسه وب اسکریپینگ و وب کراولینگ

 

تفاوت های کلیدی

در نگاه عامیانه، وب کراولینگ کاری است که موتورهای جستجو انجام می دهند: حرکت در میان صفحات اینترنت، جستجوی اطلاعات و کلیک کردن بر روی هر لینک موجود.

وب کراولینگ، یک فرآیند عمومی و کلی است و هدف آن، جمع آوری هر چه بیشتر اطلاعات ( اگر نگوییم همه اطلاعات) از سایت مورد نظر است. در اصل، این همان کاری است که گوگل می کند: یک صفحه را به طور کامل مشاهده می کند و سپس، همه اطلاعات موجود را نمایه بندی می کند.

 

فرق crawler و scraper

 

 

هم رویش منتشر کرده است:

آموزش وب اسکریپینگ با پایتون از صفر ------- بسته مقدماتی

 

 

وب اسکریپینگ کجا استفاده می شود؟

اگر بخواهید اطلاعات جمع آوری شده را دانلود و ذخیره کنید، باید به سراغ وب اسکریپینگ بروید. وب اسکریپینگ (که گاهی اوقات از آن با عنوان «استخراج داده از وب» نیز یاد می شود) بیشتر یک فرآیند هدفمند است.

 

مقایسه-وب-کراولینگ-و-وب-اسکریپینگ-مقایسه-web-crawling-و-web-scaraping-تفاوت-بین-ربات-عنکبوتی-و-ربات-خزنده-کراولینگ-چیست-فرق-کراولر-و-اسکریپر-هم-رویش
وب اسکریپینگ کجا استفاده می شود؟

 

با استفاده از پراکسی های اسکریپینگ (scraping proxies)، می توانید دستورات را تغییر داده و اطلاعات بخصوصی را از وبسایت هدف، اسکریپ کنید. سپس می توانید نتایج را در یک قالب مرتبط (مانند JSON یا اکسل) دانلود و ذخیره کنید.

در برخی موارد ممکن است برای دستیابی به یک هدف، نیاز داشته باشید از هر دو روش استفاده کنید.

در اغلب اوقات، یکی در گام اول و دیگری در گام دوم پروژه مورد استفاده قرار می گیرد. با ترکیب هر دو روش، ابتدا به کمک کراولر (crawler)، می توانید مجموعه هایی بزرگ از اطلاعات را از وبسایت های بزرگ جمع آوری کنید و سپس به کمک اسکریپر (scraper)، داده های بخصوصی که موردنیازتان هست را استخراج و دانلود نمایید. ( فرق crawler و scraper )

 

از چه نرم افزاری باید استفاده کرد؟

 

فرق crawler و scraper

تفاوت اصلی دیگری که میان وب کراولینگ و وب اسکریپینگ وجود دارد، نرم افزاری است که برای هر یک استفاده می شود. برای کارهای مربوط به وب کراولینگ، نیاز است که از یک ربات خزنده یا کراولر (crawler) استفاده کنید. این ربات، در اغلب اوقات، ربات عنکبوتی (یا اگر با عنکبوت ها مشکل دارید، نمایه ساز خودکار) نامیده می شود.

 

مقایسه-وب-کراولینگ-و-وب-اسکریپینگ-مقایسه-web-crawling-و-web-scaraping-تفاوت-بین-ربات-عنکبوتی-و-ربات-خزنده-کراولینگ-چیست-فرق-کراولر-و-اسکریپر-هم-رویش
از چه نرم افزاری باید استفاده کرد؟

 

در مورد وب اسکریپینگ، چندین ابزار مختلف وجود دارد که به آن ها اسکریپر (scraper) گفته می شود. این که بخواهید از کدام ابزار استفاده کنید، بستگی به این دارد که کدام روش های اسکریپینگ را ترجیح می دهید.

اگر در ابتدای راه وب اسکریپینگ قرار دارید، پیشنهاد می کنیم از ParseHub یا Octoparse استفاده کنید.

اگر کار با پایتون را ترجیح می دهید، Scrapy یا BeautifulSoup را امتحان کنید. همچنین اگر بیشتر با NodeJS کار می کنید، پیشنهاد می کنیم نگاهی به Cheerio و Puppeteer بیندازید.

 

 

سوالات متداول پیرامون وب اسکریپینگ و وب کراولینگ

 

به طور خلاصه، فرق وب کراولینگ با وب اسکریپینگ چیست؟

وب کراولینگ، تمام اطلاعات موجود در وب را جمع آوری می کند، در حالی که وب اسکریپینگ، تنها اطلاعات بخصوصی را جمع می کند. یک وب کراولر، تمامی خط های یک متن، عکس ها و لینک های موجود را پیدا می کند. در حالی که یک وب اسکریپر، اطلاعات و لینک های مورد نظر شما را جستجو می کند و از هر چیزی که برای شما اهمیتی ندارد یا به دنبال آن ها نیستید، عبور می کند.

این فرآیندها می توانند همزمان با هم بکار گرفته شوند تا بهترین خروجی ممکن را برایتان به ارمغان بیاورد.

 

وب کراولینگ چیست ؟ در کجا استفاده می شود؟

وب کراولینگ برای استخراج داده ها مورد استفاده قرار می گیرد. کراولر، اطلاعات را از یک صفحه اینترنت و تمامی صفحاتی که توسط لینک های موجود در آن صفحه به آنها دسترسی خواهیم داشت، جمع آوری می کند.

این داده ها، در کنار سایر استفاده هایی که دارند، به وبسایت ها کمک می کنند تا در جریان کارهایی که رقبایشان انجام می دهند، قرار بگیرند.

اگر می خواهید وبسایتتان در صفحه اول جستجوی گوگل نمایش داده شود، باید آن را برای ربات گوگل بهینه کنید. این ربات، بطور پیوسته، در صفحات اینترنتی خزش (کراول) کرده و آن ها را نمایه بندی می کند. این صفحات، بر اساس پارامترهای زیادی رتبه بندی می شوند.

برخی از این پارامترها عبارتند از مدت زمانی که طول می کشد تا صفحه بارگیری (load) شود، و اینکه صفحه دارای پیوندهای معیوب هست یا نه.

 

 

هم رویش منتشر کرده است:

آموزش پیشرفته وب اسکریپینگ -- ساخت خزنده و استخراج اطلاعات چند سایت همزمان

 

 

آیا وب اسکریپینگ قانونی است؟

اگر شما یکسری داده و اطلاعات حقیقی که در دسترس عموم هستند را اسکریپ کنید، این کار قانونی است. همواره شرایط استفاده وبسایت موردنظر را دنبال کنید و فایل robots.txt مربوط به آن را بخوانید. همچنین پیشنهاد می شود پیش از اسکریپ کردن یک وبسایت، با وکیل یا مشاور حقوقی خود مشورت کنید.

 

آیا اسکریپ کردن وبسایت آمازون، قانونی است؟

اگر چه وبسایت آمازون، این کار را تبلیغ نمی کند، اما قانونی است. قیمت ها، نقد و بررسی ها و بسیاری موارد دیگر، برای همه و با هر شکل ممکن در دسترس است.

 

چه تفاوتی بین ربات عنکبوتی و ربات خزنده وجود دارد؟

وقتی که صحبت از نرم افزاری برای وب کراولینگ می شود، ربات عنکبوتی و ربات خزنده می توانند به جای یکدیگر بکار گرفته شوند. گاهی اوقات نیز به آن ها نمایه ساز خودکار (automatic indexer) گفته می شود.

 

آیا اسکرپینگ و کراولینگ یکی هستند؟

فرق کراولر و اسکریپر

اگرچه این دو بسیار شیبه هم به نظر می آیند، اما یکی نیستند. وب کراولینگ راهی است برای دریافت اطلاعات  و سازماندهی کردن آن ها، در حالی که وب اسکریپینگ می تواند داده های خاص موردنظر ما را دریافت و برای استفاده های آتی، ذخیره کند.

 

کلید واژگان

مقایسه وب کراولینگ و وب اسکریپینگ – مقایسه web crawling و web scraping – تفاوت بین ربات عنکبوتی و ربات خزنده – کراولینگ چیست – فرق کراولر و اسکریپر – تفاوت بین ربات عنکبوتی و ربات خزنده – crawling چیست – فرق اسکریپر و کراولر – فرق crawler و scraper

 

منبع :

Web Crawling vs Web Scraping

 

دوره های آموزشی مرتبط

نویسنده :

سئو و ویراستاری :

زیبا عامریان هستم فارغ‌التحصیل مهندسی کامپیوتر و متخصص سئو و بازاریابی محتوا. در تیم اجرایی هم‌رویش مدیریت واحد محتوا رو به عهده دارم و امیدوارم که تونسته باشم تاثیر خوبی روی سئو و کیفیت خوانش محتوای هم‌رویش بگذارم.

زیبا عامریان هستم فارغ‌التحصیل مهندسی کامپیوتر و متخصص سئو و بازاریابی محتوا. در تیم اجرایی هم‌رویش مدیریت واحد محتوا رو به عهده دارم و امیدوارم که تونسته باشم تاثیر خوبی روی سئو و کیفیت خوانش محتوای هم‌رویش بگذارم.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

Search

مطالب مرتبط

دسته بندی مطالب