آیا می دانید Data Cleaning چیست و مراحل آن چگونه است ؟ آیا با تحلیل داده آشنا هستید؟ آیا میدانید پایتون به واسطه کتابخانه پانداس یکی از بهترین ابزارهای تحلیل داده است؟ این آموزش پاکسازی دیتاست در واقع یک فیلم یک ساعتی است که در جریان ضبط آموزش تحلیل داده با پایتون و پانداس (+) تولید شد. و البته در اینجا به رایگان منتشر شد زیرا به صورت مستقل نیز قابل استفاده است. حتی برای کسانی که از پایتون یا پانداس استفاده نمی کنند!
پاکسازی داده یا Data Cleaning چیست ؟
پاکسازی داده چیست؟ در علم داده ترجمه اصطلاح Data Cleansing یا Data Cleaning است. پاکسازی داده یعنی کشف ناهنجاری های دیتاست و حذف یا تصحیح آن ها و سپس آماده کردن دیتاست برای تحلیل های بعدی. اگر ناهنجاری ها و نویزها از داده ها حذف نشوند، تحلیل های بعدی با خطا و انحراف همراه خواهند بود.
این آموزش در یک نگاه
در این آموزش ما هفت گام برای پاکسازی داده تعریف کردیم. آنگاه با استفاده از کتابخانه پانداس Pandas در پایتون این هفت گام را روی دیتاست نمونه های برداشت شده در پروژه های سفر به ماه ناسا اجرا کردیم.
در آغاز آموختیم که چگونه آمار توصیفی داده ها را استخراج کنیم. سپس به رسم نمودار از داده ها پرداختیم. با اهمیت و کاربرد نمودار پراکندگی آشنا شدیم. دیدیم که هم می توانیم از متد plot پانداز استفاده کنیم و هم از خود کتابخانه matplotlib. و یا برای کارهای پیشرفته تر آماری از کتابخانه seaborn !
آموختیم که داده های خالی Null را می توان حذف یا با یک مقدار ثابت یا شاخص آماری -مانند میانگین یا نما یا میانه جایگزین کرد. همین کار را در پانداز تمرین کردیم. همچنین آموختیم که چگونه می توان سطرهای تکراری (Duplicated Records) را در پانداز کشف و سپس حذف کرد.
با متد بسیار مهم apply آشنا شدیم. دیدیم که چگونه می توانیم یک تابع یا یک عبارت لامبدایی (Lambda) را به این متد ارسال کنیم. به این روش می توانیم تک تک داده های یک ستون یا سری در پانداز را تحت یک عملیات یکسان قرار داد و کل ستون رو اصلاح کرد.
همچنین دیدیم که بعد از تغییر ماهیت ستون ها باید حتما با متد rename به تصحیح عنوان ستون ها هم بپردازیم.
در بخش پایانی این آموزش با مفهوم داده پرت یا Outlier آشنا شدیم. یاد گرفتیم که نمودار جعبه ای یا Boxplot چیست و چه کاربردی در یافتن داده پرت دارد. همچنین آموختیم که شاخص IQR یا Interquartile Range چیست و چگونه در حذف داده های پرت می توان از آن استفاده کرد.
در پایان این درس تمرینی برای درک مفهوم z-score یا نمره استاندارد و نیز skewness یا چولگی تعریف کردیم. از این شاخص ها هم می توان در تشخیص و حذف داده های پرت و نویز استفاده کرد.
این آموزش بی نظیر است زیرا:
- آنچه در مورد پاکسازی داده یاد می گیریم برای هر پروژه ای مستقل از ابزار، قابل استفاده است.
- مراحل data cleaning را روی یک پروژه واقعی پیش اجرا می کنیم.
- مهم تر از شناخت نام تابع ها، شما به بینش های تازه در تحلیل داده دست پیدا می کنید.
- تک تک مراحل از صفر کدنویسی و سورس کدها پیوست می شود.
کلید واژگان
آموزش پاکسازی دیتاست – data cleaning چیست ؟ – مراحل پاکسازی دیتاست – آموزش Data Cleaning – پاکسازی داده ها – پاکسازی داده – پاکسازی داده در پایتون – روش های پاکسازی داده ها – پاکسازی مصرف داده – تحلیل داده با پایتون – دوره تحلیل داده با پایتون
نقد و بررسیها
هنوز بررسیای ثبت نشده است.