آیا میدانید وب اسکریپینگ چیست ؟ اینترنت امروز سرشار از دادههای مفید است. وب اسکریپینگ ابزاری برای جمع آوری دادهها از پهنه اینترنت است. این آموزش وب اسکریپینگ با پایتون دارای سناریو بوده و سریع شما را از نقطه صفر وارد web scraping در پایتون میکند.
شما میتوانید فصلهای این بسته را جداگانه نیز تهیه کنید:
- ساخت یک Scraper (فصل ۱)
- تجزیه پیشرفته HTML (فصل ۲)
- ساخت Crawler (فصل ۳)
همچنین در زمینه کاربردهای وب اسکریپینگ و چالشهای آن، مقالههای زیر در مجله همرویش نیز توصیه میشود.
- تعریف وب اسکریپینگ و مزایای آن
- معایب و چالش های وب اسکریپینگ
- ایده های درآمد زایی از وب اسکریپینگ
- کاربردهای وب اسکریپینگ
وب اسکریپینگ یا وب اسکرپینگ، کدام تلفظ درست است؟
وب اسکرپینگ تلفظ اشتباهی است و تلفظ درست وب اسکریپینگ می باشد. علت اشتباه این تلفظ این است که Scrap، در انگلیسی اسکرپ خوانده می شود اما Scraping اصولا اسکریپینگ خوانده می شود. با این حساب تلفظ وب اسکریپینگ تلفظ صحیح می باشد. برای بررسی دقیق تر این تلفظ و یا تلفظ صحیح هر کلمه دیگر می توانید از دیکشنری کمبریج استفاده کنید.
این آموزش در یک نگاه
این آموزش شامل سه فصل است که عنوان فصل ها در بالا ذکر شد. از نقطه صفر این آموزش شروع می شود.
در فصل اول این آموزش ابتدا با مبانی نظری وب کاوی و چرخه وب آشنا میشویم. سپس ابزار کدنویسی (در این آموزش، Pycharm) را آماده میکنیم. در ادامه با استفاده از کتابخانه urllib پایتون یک درخواست خودکار از درون اسکریپت خود به یک سرور فرستادیم و یک صفحه وب را فراخوانی و محتوای آن را چاپ کردیم. سپس به Beautifulsoup و راه اندازی سریع آن پرداختیم. آموختیم که چگونه با استفاده از این کتابخانه یک فایل html را تجزیه و یک تگ به خصوص (مثلا عنوان صفحه) را استخراج و چاپ کنیم. در گام نهایی این آموزش در دو درس با مدیریت خطاهای ممکن آشنا خواهید شد.
فصل دوم در واقع به نوعی ادامه آموزش beautifulsoup و ابزارهای حرفهای آن است. ابتدا به یافتن اطلاعات براساس css و استایل تگهای حاوی این اطلاعات میپردازیم. در ادامه با استفاده از توابع children و descendants و parent و توابع همارز siblings ساختار درختی HTML را میشکنیم. سپس تگ های سازنده جدول در HTML آشنا میشویم. آنگاه اطلاعات یک جدول را به صورت اصولی بیرون میکشیم. در پایان این فصل نیز هم با عبارتهای لامبدا (Lambda Expressions) در زبان پایتون آشنا میشویم؛ سپس با کاربرد این عبارتها در BeautifulSoup آشنا میشویم. وب اسکریپینگ با پایتون پیشرفته لذت بخش تر است.
در فصل سوم این آموزش ساخت خزنده وب یا Crawler با پایتون به صورت پروژه محور ضبط شده است. با دو پروژه درک خواهید کرد که کراولر چیست. ساخت خزنده وب یا کرالر گام بلندی برای جمع آوری داده ها از صفحهای به صفحه دیگر است.
آموزه های اصلی
- آشنایی با mac address , ip address
- چرخه وب برای ارسال درخواست HTTP و دریافت پاسخ آن
- نصب و راه اندازی pycharm
- آموزش کتابخانه urllib پایتون
- نصب کتابخانه BeautifulSoup
- اتصال مطمئن و مدیریت Exceptions
- استفاده از کلاس AttributeError
- تابع getTitle و استفاده از آن
- استفاده از تابع find_all و get_text
- پارامتر tag، attributes، recursive ، text، keyword، limit در تابع find() , find-all()
- استفاده از تابع children()
- تابع next_siblings
- کار با تابع previous_siblings، next_sibling، previous_sibling
- استخراج عکس از صفحه html
- ساخت Crawler و خزش در سایتهای واقعی
این آموزش بی نظیر است زیرا:
- از نقطه صفر این آموزش شروع می شود.
- کوتاه و بهینه است.
- در این آموزش مثال های متعدد و واقعی حل می شود.
- با دو پروژه مفهوم کراولر چیست را درک خواهید کرد.
- بر اساس یک مرجع معتبر تهیه شده است.
پیشنیار
همچنین پس از این آموزش توصیه میکنیم آموزشهای زیر را برای پیشرفت بیشتر ببینید:
کلید واژگان
آموزش وب اسکریپینگ با پایتون – وب اسکرپینگ – آموزش web scraping در پایتون – وب اسکریپینگ با پایتون – متن کاوی – وب کاوی با پایتون
مهدی فاضلی –
سلام وقت بخیر
میخواستم بدون با این دوره میشه محتوا هایی که از طریق ajax تو سایت ها تولید میشه رو هم اسکریپ کنم؟ اگر نمیشه با کدوم دوره تو سایت میشه این نوع محتوا ها رو اسکریپ کرد مثلا بدست آورده شماره های تو سایت دیوار یا باما که نیاز به تعامل انسانی داره و باید روش کلیک بشه .ممنونم از توجه تون
مصطفی آصفی –
سلام وقت بخیر. گمان نمی کنم تو این دوره گفته شده باشه ولی می تونید ریز سرفصل رو بررسی کنید. برای تعامل انسانی این دوره ساخت ربات اینستاگرام (+) و کتابخونه سلنیوم می تونه بهتون دید بده. البته دقت کنید که اون دوره با توجه به تغییرات اینستاگرام الان ممکنه رباتش کار نکنه ولی کتابخونه سلنیوم به هر حال سر جاش هست.
Farshid (خریدار محصول) –
سلام مجدد یکی درمیان آموزشها بصورت سایلنت همراه با تصویر هستند برای مثال قسمت : [😒-WM-01-Scraper-04] را ملاحظه بفرمایید.با VLC ,MPC, Media Player و دوتای دیگه هم چکیدم باز هم فیلم صامت بود.من فقط یکی از قسمتها برای مراجعه شما اعلان کردم وگرنه قسمتهای بیشتری همین مشکل را دارند.!خیلی خیلی اول کاری توی برجکم خورد اساسی. لطفا لطفا جواب بنده را در اسرع وقت بفرمایید
روابط عمومی هم رویش –
با سلام مجدد. همراه گرامی قسمتی که فرمودید تست شد و صدا مشکلی نداشت. قسمت مورد نظر قسمتی از فصل اول دوره بوده که به صورت مستقل تاکنون بالای 350 خرید داشته و همچنین به عنوان بخشی از بسته مقدماتی توسط فراگیران فراوانی دریافت شده و تاکنون گزارشی مبنی بر مشکل صدا از طرف خریداران دریافت نکرده ایم. با وجود این تفاسیر لینک دانلود قسمتی که میفرمایید مشکل صدا دارد برای آدرس ایمیلی که ثبت سفارش داشته اید ارسال میگردد لطف بفرمایید یک بار در گوشی هوشمند تست بفرمایید. اگر مشکل پابرجا بود برای ایمیل روابط عمومی به آدرس زیر مشکل خود را اعلام نمایید تا بررسی بیشتری گردد. info@hamruyesh.com
Nikzad (خریدار محصول) –
بسیار آموزش خوبی بود – سپاسگزارم از زحمات شما
معصومه کرمی –
سلام ممنون از نظرتون و خیلی خوشحالم که آموزش برای شما مفید بوده
kheiri.saeid@gmail.com –
سلام وقت شما بخیر . باید نرم افزاری طراحی کنم که اطلاعات سایت tradingView را کاوش کنه و بر اساس مقادیر آلارم بصورت پیامک ارسال کنه یا از طریق صرافی بصورت اتوماتیک سفارش خرید و فروش ارسال کنه. لطفا بفرمایید کدام آموزش ها را تهیه کنم که هدف منو ساپورت کنه
ابوالفضل حسن زاده –
سلام استاد خسته نباشید. استاد من میخوام یه برنامه بنویسم با پایتون که هر موقع به اینترنت وصل شدم به یه سری سایت سر بزنه و برام از خواننده های مورد علاقم جدید ترین اهنگی که منتشر شده و یا من ندارم رو برام دانلود کنه. به نظر شما با دیدن این اموزش من میتونم این کار رو انجام بدم اصلا شدنی هست؟
مصطفی آصفی –
آموزش بسیار خوب و چکیده و مفیدیه. ممنون از زحمات شما