برای آموزش وب کاوی (Web Mining) مثل بسیاری مهارتهای دیگر، هیچ چیز بهتر از انجام پروژه های کوچک و جذاب نیست. این که بدانید وب اسکریپینگ چیست و چه تعریفی دارد چندان کاربردی نیست. با چنین نگاهی در این بسته در قالب یک پروژه جذاب به آموزش وب اسکریپینگ با Beautiful Soup میپردازیم.
توجه: این آموزش به دلیل محدودیت اجرایی دیجی کالا صرفا به جهت جنبه آموزشی عرضه رایگان گردید. موارد پیاده شده در آموزش را میتوانید در رابطه با وبسایتهایی که محدودیت اسکریپینگ ندارند، شبیهسازی کنید.
داستان آموزش
یکی از کاربردهای وب کاوی استخراج قیمتها و برآورد قیمت رقابتی است. میتوان برای یک درگاه فروش آنلاین با استفاده از وب کاوی و پایش قیمت رقبا یک قیمت بهینه برای محصولات تعیین کرد.
همچنین سیستمهای فروش همواره در بازههای زمانی معینی تخفیفهای مناسبی قرار میدهند که آگاهی به موقع از آنها میتواند به خریدی مقرون به صرفه بیانجامد.
البته کاربردهای وب کاوی محدود به این موارد نیست. مواردی مانند جابجایی محتوا، استخراج کلان داده، ربات های اجتماعی، موتورهای جستجو و بازاریابی دیجیتال از جمله موارد دیگری هستند که در آنها از تکنیکهای وب کاوی از جمله اسکریپینگ و کراولینگ استفاده میشود.
این آموزش در یک نگاه
در این بسته به آموزش ساخت یک ربات وب کاوی با پایتون میپردازیم. این ربان با استفاده از کتابخانه request در فواصل زمانی معین نشانی صفحه یک محصول در وب سایت دیجی کالا را فراخوانی میکند. سپس قیمت محصول با استفاده از Web Scraping و کتابخانه Beautiful Soup استخراج میشود.
در صورتی که قیمت محصول مورد نظر به مرز معینی رسیده باشد، ربات به صورت خودکار و با پروتکل SMTP یک ایمیل به ما ارسال میکند. به این ترتیب میتوان از بهترین قیمت به موقع باخبر شد.
ادامه مسیر
رباتی که در این آموزش ایجاد میشود را میتوان از جنبههای مختلفی مورد استفاده قرار داد. در درس پایانی نمونههایی بیان شده است. همچنین در آینده آموزشهای دیگری از این دست تعریف خواهند شد تا تکه تکه ترفندهای وب کاوی و وب اسکریپینگ با beautiful soup آموزش داده شوند.
پیشنیاز
در آغاز این آموزش، فرض بر این است که فراگیر با زبان پایتون تا حد شی گرایی و استفاده از کتابخانهها آشنا است. شما میتوانید در این زمینه به آموزش برنامه نویسی پایتون هم رویش مراجعه کنید.
کلیدواژگان
وب اسکریپینگ – web scraping – آموزش پروژه محور وب اسکریپینگ – تحلیل قیمت با پایتون – خزش در دیجی کالا – اسکریپینگ یا اسکرپینگ – پروتکل SMTP
پوریا کمالی (خریدار محصول) –
سلام قصد دارم یک رباتی ایجاد کنم روی یک سایت دانشگاه که ثبت نام کرده ام ، به این صورت که پس از لاگین فرم چند مرحله ای تکمیل شود و اطلاعات تاریخ مصاحبه آن هر زمان اعلام شد به من اعلام شود ، حتی توسط خود ربات زمان اعلام شده تایید بشود و اعلام تعداد دفعات توسط خودم که چندین بار در طول روز چک انجام شود، صورت بگیرد.
این کار را میشود که با پایتون یا جاوا اسکریپت انجام داد ؟
و اگر میشود برای این هدف شما چه دوره را پیشنهاد میکنید ؟
همچنین شما این پروژه را انجام میدهید ؟
مصطفی آصفی –
سلام به شما. از کتابخونه Selenium استفاده کنید.
مهران –
با سلام …با توجه بع موارد امنیتی که سایت دیجی کالا اخیرا روی سایت گذاشته ایا این اموزش همچنان کار میکنه ؟؟؟ لطفا در صورت امکان یه شماره جهت ارتباط با برنامه نویس و هماهنگی ارسال کنید با تشکر
مصطفی آصفی –
سلام به شما. طبیعتا اسکریپینگ سایت هایی که خودشون راضی به این کار نیستن مجاز نیست. این آموزش هم صرفا به جهت بعد آموزشی از امروز رایگان شد.
sina –
سلام این آموزش چند ساعت هست؟
حمیدرضا عطری –
سلام وقتتون بخیر
من به یک مشکل در استخراج اطلاعات محصول از دیجی کالا برخورد کردم. پروژه اینطوریه که می خوام نام محصول و قیمتش رو برای یک گروه کالایی که شامل حدود 500 کالا هست رو انجام بده.
مشکلی که می خورم در برخی از محصولات اطلاعات قیمت استخراج نمی شه و null هست اما داخل سایت دارای قیمت هستند.
ممنون میشم راهنمایی بفرمایید. ضمنا از beautifullsup و request استفاده کردم
مهدی –
سلام امکانش هست دوره ساخت ربات بورس با پایتون هم بسازید؟
سید سهیل علوی –
سلام یک سوالی در زمینه وب اسکرپینگ برای من پیش اومده . ایا امکان دریافت داده ها از سایت هایی که برای ورود نیاز به اکانت هست وجود داره ؟مثلا بشه وارد سایت شد و از قسمت مورد نظر به او داده مورد نیاز رسید ؟
مصطفی آصفی –
سلام به شما. در چنین مواردی شما باید با استفاده از کتابخانه هایی مثل سلنیوم اول یک ربات برای ورود بسازید. نمونه ای از چنین رباتی در این آموزش ربات اینستاگرام (+) برای ورود به اینستاگرام و سپس دریافت اطلاعات گفته شده.
در مرحله بعد از ورود طبیعتا امکان استفاده از اطلاعات با سطح دسترسی کاربر و واکشی اون ها با وب اسکریپینگ هست.
alakimail92@gmail.com –
سلام علیکم
آیا همه آموزش های وی اسکرپینگ در یک بسته قابل خریداری هست؟ لینکش را لطف میکنید بفرستید؟
روابط عمومی هم رویش –
سلام و احترام. این آموزش ربات دیجی کالا مستقل هست. البته در هم رویش در حال تولید یک مجموعه آموزش وب کاوی هستیم که در حال حاضر دو فصل زیر منتشر شده
آموزش وب کاوی با پایتون – فصل اول: شروع سریع اسکریپینگ (+)
آموزش وب کاوی با پایتون – فصل دوم تجزیه پیشرفته HTML (+)
و انشالله در این ماه فصل سوم با موضوع ساخت وب کراولر منتشر خواهد شد. از این مدرس با معرفی آموزش به دوستان خود حمایت کنید.
دیدن این آموزش (+) مسقل دو مدرسی نیز شاید برای شما خالی از لطف نباشد.
معصومه کرمی –
سلام ممنون از لطف شما
یک آموزش اسکریپ وب سایت اتفاقا در هم رویش در دست تهیه هست احتنا ظرف یکی دو هفته آینده منتشر خواهد شد
صفحه ی اینستاگرام هم رویش را دنبال کنید تا از زمان دقیق انتشار آموزش ها مطلع شوید
اما بیشتر توصیه میکنم آموزش وب کاوی با پایتون رافصل به فصل در همرویش دنبال کنید تا بتونید هر اطلاعاتی که خواستین از فضای نت بدست بیارین
حمید (خریدار محصول) –
امکانش هست آموزش اسکریپ و آپدیت جدول نتایج ورزشی رو آموزش بدید ؟
مصطفی آصفی –
سلام به شما و جای خوشحالیه که آموزش برای شما مفید بوده.
همون طور که خانم کرمی هم بالا فرمودن، این آموزش اتفاقا در هم رویش در حال برنامه ریزی مشترک هست.
حمید (خریدار محصول) –
سپاس فراوان – عالی عالی عالی
قدرت بیان فوق العاده و با صبر خیلی زیاد
مصطفی آصفی –
سلام و خدا قوت. واقعا پروژه های کوچک بهترین روش برای ورود به موضوعات فناوری اطلاعات هستند.