این آموزش پانداس پروژه محور است. اما فقط به آموزش pandas نمیپردازیم. این که پانداس چیست و چگونه کار میکند. این یک آموزش تحلیل داده با پایتون از صفر محسوب میشود. به واسطه یک پروژه جذاب با تحلیل داده در پایتون آشنا میشوید. در این پروژه به پیش بینی حجم و نوع نمونه برداری مورد نیاز در یک ماموریت واقعی سفر به ماه میپردازیم. پس از 50 سال انسان دوباره به ماه پا خواهد گذاشت و از خاک آن نمونه برداری میکند.
همرویشیهای عزیز پیشنهاد میکنم حول محور این آموزش مقاله زیر را مطالعه کنید. برای مطالعه مقاله بر روی تصویر زیر کلیک کنید:
پانداس چیست ؟
کتابخانه Pandas (+) یک کتابخانه به زبان پایتون (بهینه شده با سایتون) برای تحلیل داده است. توسعه کتابخانه با نیاز شرکت AQR به تحلیل های سریع داده و توسط کارمند این شرکت وِس مککنی (Wes McKinney) در سال 2008 آغاز شد.
پانداس متن باز و رایگان است. امکان فراخوانی داده های CSV و JSON و اکسل و SQL و بسیاری فرمت های دیگر را دارد. با پانداس می توان شکل و فرمت داده ها را تحلیل کرد. میتوان داده های دو بعدی را در هم ادغام کرد. نیز میتوان فیلترها و نمودارهای گوناگون برای درک ماهیت داده ها به کار برد.
نام Pandas ارتباطی با خرس پاندا ندارد. در واقع از سرنام واژههای Panel Data گرفته شده که اصطلاحی رایج برای داده های جدولی و چندبعدی در مطالعات اقتصادی است. به همین دلیل بسیاری علاقه مندان Pandas آن را به جای پانداز به عمد به صورت پانداس تلفظ می کنند. تا بگویند این یک کلمه جدید است. پانداز تلفظ جمع کلمه panda به معنی خرس پاندا است که بر اساس قواعد گرامر انگلیسی باید s جمع آن با صدای z تلفظ شود.
پروژه این آموزش (آپولو و آرتمیس)
انسان نخستین بار در جریان برنامه فضایی آپولو (Apollo) در سال 1969 و توسط آپولو 11 روی ماه پا گذاشت. پس از آن پنج فضاپیمای آپولوی دیگر در سال های بعد روی ماه نشستند. در جریان این ماموریت ها یکی از کارهایی که انجام شد این بود که حدود 400 کیلوگرم از خاک و سنگ ماه به زمین آورده شد. مطالعه این نمونه ها برای درک تاریخ هستی و همچنین پروژه های فضایی اقتصادی اهمیت بسیاری دارد.
در سال 2017 ناسا اعلام کرد که قصد دارد دوباره و تا سال 2024 طی یک برنامه فضایی به نام آرتمیس (Artemis) دوباره به ماه بازگردد. ماموریت آرتمیس در چندین مرحله انجام می شود. هدف آن استقرار فضانوردان روی ماه و اکتشاف آن و سپس آماده سازی سفر به مریخ از ماه است.
در جریان ماموریت آرتمیس هم حتما نمونه برداری صورت خواهد گرفت. اما چقدر و کدام سنگ ها؟ این سوالی است که ما با تحلیل داده های نمونه برداری آپولو در این آموزش پانداس پیش بینی خواهیم کرد.
این آموزش در یک نگاه
ما در جریان این آموزش pandas ابتدا به این سوال می پردازیم که پانداس چیست ؟ سپس به تعریف صورت مساله مورد نظر می پردازیم. با ماموریت آپولو و آرتمیس آشنا خواهیم شد. خواهید دید که چه داده هایی داریم و چه مساله ای باید حل شود.
آنگاه به سراغ نصب ابزار و شروع کدنویسی می رویم. این آموزش VSCode را به یاد دارید؟ دیدیم که این محیط توسعه تقریبا برای هر پروژه کدنویسی و توسعه راهکار دارد. و خب چه چیزی بهتر از این که مدام نخواهیم از این IDE به دیگری مهاجرت کنیم. پس در این آموزش به نصب ژوپیتر در VS Code میپردازیم. نصب پانداس در ژوپیتر به واسطه پکیج منیجر Conda را تجربه می کنیم و کدها را در این محیط می نویسیم.
پس از راه اندازی ابزار یک درس ماراتونی داریم. در یک ساعت به معنی Data Cleansing یا Data Cleaning و سپس اجرای آن با پانداس می پردازیم. آنچه در این درس می آموزید مستقل از نوع کتابخانه ای که استفاده می کنید در هر آموزش تحلیل داده لازم است. یکی از مهم ترین مواردی که در این درس میآموزید برخورد با داده های پرت است. به تعریف داده پرت یا Outlier میپردازیم و روشهای شناسایی و حذف آن را خواهیم آموخت.
در چند درس بعدی به کار با داده ها و تحلیل آن ها میپردازیم. در این درس هاست که چشم و ذهن شما به شیوه استفاده از pandas عادت می کند. قطعا همه امکانات یک کتابخانه بزرگ مثل پانداز را نمی توان در یک آموزش بیان کرد. نیازی هم نیست. همین که ماهیت و شیوه استفاده از یک ابزار را بیاموزید کافی است. بعدها بسته به نوع پروژه می توانید موارد بیشتری را با جستجو در گوگل پیدا کنید. برای آگاهی از ریز امکانات گفته شده به بخش سرفصل های آموزش در انتهای توضیحات مراجعه کنید.
سرانجام در درس نهم و دهم به تفسیر نتایج و ارائه پیش بینی کمّی (مقدار نمونه برداری) و کیفی (نوع سنگ های واجب تر) میپردازیم. این که در ماموریت آرتمیس به طور متوسط هر بار چند کیلوگرم و از چه سنگ هایی باید نمونه گرفت.
این آموزش پروژه محور پانداس با طرح دو تمرین و دو ایده پایان می یابد. همچنین لینک سورس کدها به فراگیران تحویل میشود.
برخی آموزهها
- کتابخانه Pandas چیست ؟
- آموزش نصب پانداس
- نصب ژوپیتر در VS Code
- مفهوم DataFrame در پانداز
- مفهوم Series در پانداز
- فرآیند پاکسازی در تحلیل داده
- مفهوم Outlier روش حذف آن
- کار با دیتافریم و سری در پانداس
- متدهای groupby و merge برای ادغام
- متد apply برای دستکاری داده ها در پانداس
- کار با پراپرتی loc برای فیلتر داده ها
- محاسبه میانگین و میانه و نما در پانداس
- ایده هایی برای استفاده از مهارت تحلیل داده
پیشنیاز
همچنین به صورت اختیاری پیشنهاد میکنیم که آموزش Matplotlib و آموزش NumPy را نیز همراه این آموزش ببینید. آگاهی از متپلات لایب و نامپای میتواند قدرت مانور شما در پانداس را بیشتر کند.
کلیدواژگان
پانداس چیست ؟ آموزش پانداس پروژه محور – آموزش pandas – تلفظ pandas – پاندا پایتون – آموزش پانداز – آموزش پروژه محور pandas – تحلیل داده با پایتون – آموزش تحلیل داده – بهترین کتابخانه تحلیل داده پایتون – آموزش سریع pandas – شروع سریع تحلیل داده با python – آموزش نصب پانداس – آموزش نصب ژوپیتر در ویژوال استودیو کد
navid –
سلام
آیا میشه در استفاده از این دوره بجای ژوپیتر بنده از PyCharm استفاده کنم؟ خللی در آموزش مطالب پیش نمیاد؟
مصطفی آصفی –
سلام وقت بخیر. نه اشکالی نداره هر چند توصیه نمی کنم. برای پروژه های تحلیل داده و یادگیری ماشین چون با وارسی پارامترها سر و کار دارن و همین طور نتیجه کار رو ممکنه بخوایم به دوستان یا اعضای تیم بدیم ژوپیتر انتخاب بهتریه. همچنین اگه با نصب ژوپیتر روی سیستم مشکل دارین می تونید از گوگل کولب (+) استفاده کنید.
حسین دهقانی (خریدار محصول) –
سلام برای من مبتدی خوب بود .
یه سوال داشتم اینکه چطور از چولگی برای پیدا کردن داده های پرت استفاده کنیم؟
من لینک هایی که پیوست کرده بودین رو خوندم و بیشتر گیج شدم 😅
مصطفی آصفی –
سلام به شما. از چولگی برای احتمال وجود داده پرت استفاده کنید. مثلا اگه چولگی راست داشته باشیم یعنی تعداد اندکی از داده ها مقدار بزرگ دارن و ممکنه داده پرت باشن. این که هستن یا نه بستگی به ماهیت پروژه و البته حجم داده ها داره و البته باید تجربه کنید و پروژه ببینید تا بتونید تو یه مورد تصمیم بگیرید. مثلا ممکنه ۱ درصد داده ها مقدارهای خیلی بزرگی دارن و شکل توزیع چولگی راست پیدا کرده اما یک درصد داده ها تو ۱۰۰ داده میشه ۱ نمونه که شاید راحت تر بشه پرت حسابش کرد ولی تو ۱ میلیون داده میشه ۱۰ هزار داده!
همین طور باید ریشه اون داده ها کشف بشن. آیا در گذشته پیش اومدن و دیگه در آینده پیش نمیان؟ مثلا یه سنسور تو اون دوره کالیبره نبوده و الان درست شده. یا این که نه این موضوع همیشه برقراره تعدادی آدم با قامت بلندتر از ۲ متر که به هر حال ماهیت واقعی اون مساله هستن.
جمع بندی این که آماره ها و شکل توزیع ها صرفا نشونه های داده های پرت رو به شما میگن و تصمیم به تحلیل شما بستگی داره.
دانیال مودی (خریدار محصول) –
موارد عنوان شده در دوره بسیار ابتدایی بود و بجای اینکه بیشتر بر روی دیتا کاوی صحبت شود روی برنامه فضایی صحبت شده بود.
برای منکه این دوره کاملا بلا استفاده بود.
مصطفی آصفی –
سلام به شما. لطفا پیش از تهیه دورهها فیلم معرفی و ریز سرفصلها رو بررسی کنید.
AliReZa –
درود
یک سوال دارم من یک فایل csv دارم از قیمت خودرو و میخوام بر اساس سال و کارکرد ماشین در آینده قیمت پیش بینی کنم.
برای اینکار میتونم از این آموزش استفاده کنم ؟
با تشکر
مصطفی آصفی –
سلام به شما. ما در این آموزش روی تحلیل تمرکز کردیم و روش های پیش بینی آماری یا یادگیری ماشینی گفته نشده. باز سرفصل ها رو در پایان توضیحات مطالعه بفرمایید دقیق تر متوجه میشید.
سیاوش حسینی –
با سلام به نظر آموزش جذابی هست. ممنون از استاد گرامی
مصطفی آصفی –
سلام و سپاس از لطف شما.