در این فصل از آموزش وب کاوی به آموزش تجزیه پیشرفته HTML در قالب چند موضوع میپردازیم. استخراج عکس از وبسایت ، استخراج جدول با beutifulsoup ، آموزش تابع find در beautifulsoup ، آشنایی با توابع لامبدا در پایتون و آموزش regex در پایتون از این جمله هستند.
اگر بخواهید اسکریپرهای پایدار بنویسید که با کمترین تغییر در ساختار html صفحه از دست نروند، این فصل به شما کمک میکند.
این دوره در واقع هم به صورت مستقل قابل استفاده است و هم فصل دوم از آموزش مقدماتی وب اسکریپینگ با پایتون است. البته شما میتوانید فصلهای دیگر را به صورت مستقل نیز تهیه کنید.
معرفی این آموزش
برای نوشتن یک ربات اسکریپینگ اصولی باید با تجزیه پیشرفته HTML آشنا باشید. اگر به یاد داشته باشید، در فصل اول اطلاعات را از صفحات با HTML ساده بیرون کشیدیم. اکنون در فصل دوم به تجزیه پیشرفته HTML میپردازیم. این فصل در واقع به نوعی ادامه آموزش beautifulsoup و ابزارهای حرفهای آن است.
ابتدا به یافتن اطلاعات براساس css و استایل تگهای حاوی این اطلاعات میپردازیم.
در ادامه با استفاده از توابع children و descendants و parent و توابع همارز siblings ساختار درختی HTML را میشکنیم. سپس تگ های سازنده جدول در HTML آشنا میشویم. آنگاه اطلاعات یک جدول را به صورت اصولی بیرون میکشیم.
همچنین در این آموزش با عبارتهای باقاعده (Regular Expressions) در زبان پایتون آشنا میشویم؛ بعد با استفاده از عبارتهای باقاعده، به آموزش استخراج عکس از یک صفحه وب میپردازیم.
در پایان این فصل نیز هم با عبارتهای لامبدا (Lambda Expressions) در زبان پایتون آشنا میشویم؛ سپس با کاربرد این عبارتها در BeautifulSoup آشنا میشویم. وب اسکریپینگ با پایتون پیشرفته لذت بخش تر است.
در تمام بخشهای این آموزش از مثال استفاده شده است. مثالها گام به گام کدنویسی شدهاند که به فهمیدن مطالب کمک میکند.
اگر میخواهید نمونههایی از کاربردهای وب اسکریپینگ توسط این مدرس را ببینید به این آموزش ساخت خبرخوان ورزشی و این آموزش شکار قیمت بهینه دیجی کالا مراجعه کنید.
این آموزش بینظیر است زیرا
- سرفصلهای آن بر اساس یک مرجع معتبر جهانی است.
- با مفاهیم تجزیه پیشرفته HTML آشنا میشوید
- با استخراج عکس از یک صفحه وب آشنا میشوید.
- با عبارتهای باقاعده و عبارتهای لامبدا آشنا میشوید.
- تمامی مطالب با مثال تشریح میشوند.
- زمان هر درس کوتاه و بهینه است تا بتوانید تمرکز کنید.
مرجع
این مجموعه بر اساس یک مرجع معتبر و محبوب جهانی (کتاب Web Scraping with Python) به همراه تجربه خود مدرس تولید میشوند.
کلیدواژگان
وب اسکریپینگ چیست ؟ تجزیه پیشرفته HTML چیست؟ چگونه تگ ها را از روی css واکشی میکنیم ؟ استخراج عکس از یک صفحه وب – معنی تگ parent و تگ children چیست؟ تفاوت تگ children و تگ descendant چیست ؟ تابع لامبدا در پایتون چه کاربردی دارد ؟ استخراج عکس از وبسایت – توابع لامبدا در پایتون – استخراج جدول با beautifulsoup
سالارپور (خریدار محصول) –
سلام و خسته نباشید . اموزش عالی بود.
معصومه کرمی –
سلام ممنون از لطف شما خوشحالم که مفید بود.
سارا م (خریدار محصول) –
سلام من فصل اول و دوم وب کاوی با پایتون خانم کرمی را خریدم، ضمن تشکر و خسته نباشید، اما حقیقتا مطالبی که در ویدیو ها بود همان چیزهایی بود که براحتی از داکیومنتیشن requestو یا beautifulSoup پیدا میشد. مثالهای ارایه شده بسیار ابتدایی و ساده بود که برای شروع بد نیست، اما وقتی با عنوان تجزیه ی پیشرفته htmlمواجه میشیم توقع داریم مثلا اکسترکت یک جدول کامل، یا اسکریپ و اکسترکت اطلاعات یک صفحه ی کمی پیچیده تر رو یادبگیریم. در نهایت من همه کدهایی که در این ویدیوها ارایه شد رو قبلا با جستجوی ساده دیده بودم و استفاده کرده بودم و چیز جدیدی دریافت نکردم از این ویدیوها.
mostafa sabzi sarvestani (خریدار محصول) –
سلام
وقت بخیر
با متد urlopen نمی توان سایت های نوشته شده با asp.net را خواند.
لطفا راهنمایی بفرمایید.
مصطفی آصفی –
سلام دوست عزیز. پیشنهاد می کنم از request استفاده کنید.
mjavad.sabrjoo (خریدار محصول) –
سلام ممنونم از آموزش شما
لینک دانلود قسمت دهم کار نمیکنه
ممنون میشم رسیدگی کنید
روابط عمومی هم رویش –
سلام و سپاس از اطلاع به موقع شما.
لینک احیا شد لطفا دوباره تلاش کنید.
مصطفی آصفی –
سلام به شما. پشتکار شما در تهیه مستمر این مجموعه با این کیفیت تحسین برانگیزه خانم مهندس. خدا قوت.