قیمت :

رایگان

LinkedIn
Twitter
Facebook
Telegram
LinkedIn
Twitter
Facebook
Telegram

این یک آموزش تک‌قسمتی رایگان است. به سبد خرید افزوده و با چند کلیک دریافت کنید.

درباره مدرس 

اطلاعات دوره

توضیحات

آیا می دانید Data Cleaning چیست و مراحل آن چگونه است ؟ آیا با تحلیل داده آشنا هستید؟ آیا می‌دانید پایتون به واسطه کتابخانه پانداس یکی از بهترین ابزارهای تحلیل داده است؟ این آموزش پاکسازی دیتاست در واقع یک فیلم یک ساعتی است که در جریان ضبط آموزش تحلیل داده با پایتون و پانداس (+) تولید شد. و البته در اینجا به رایگان منتشر شد زیرا به صورت مستقل نیز قابل استفاده است. حتی برای کسانی که از پایتون یا پانداس استفاده نمی کنند!

 

پاکسازی داده یا Data Cleaning چیست ؟

پاکسازی داده چیست؟ در علم داده ترجمه اصطلاح Data Cleansing یا Data Cleaning است. پاکسازی داده یعنی کشف ناهنجاری های دیتاست و حذف یا تصحیح آن ها و سپس آماده کردن دیتاست برای تحلیل های بعدی. اگر ناهنجاری ها و نویزها از داده ها حذف نشوند، تحلیل های بعدی با خطا و انحراف همراه خواهند بود.

 

این آموزش در یک نگاه

در این آموزش ما هفت گام برای پاکسازی داده تعریف کردیم. آنگاه با استفاده از کتابخانه پانداس Pandas در پایتون این هفت گام را روی دیتاست نمونه های برداشت شده در پروژه های سفر به ماه ناسا اجرا کردیم.

در آغاز آموختیم که چگونه آمار توصیفی داده ها را استخراج کنیم. سپس به رسم نمودار از داده ها پرداختیم. با اهمیت و کاربرد نمودار پراکندگی آشنا شدیم. دیدیم که هم می توانیم از متد plot پانداز استفاده کنیم و هم از خود کتابخانه matplotlib. و یا برای کارهای پیشرفته تر آماری از کتابخانه seaborn !

آموختیم که داده های خالی Null را می توان حذف یا با یک مقدار ثابت یا شاخص آماری -مانند میانگین یا نما یا میانه جایگزین کرد. همین کار را در پانداز تمرین کردیم. همچنین آموختیم که چگونه می توان سطرهای تکراری (Duplicated Records) را در پانداز کشف و سپس حذف کرد.

با متد بسیار مهم apply آشنا شدیم. دیدیم که چگونه می توانیم یک تابع یا یک عبارت لامبدایی (Lambda) را به این متد ارسال کنیم. به این روش می توانیم تک تک داده های یک ستون یا سری در پانداز را تحت یک عملیات یکسان قرار داد و کل ستون رو اصلاح کرد.

همچنین دیدیم که بعد از تغییر ماهیت ستون ها باید حتما با متد rename به تصحیح عنوان ستون ها هم بپردازیم.

در بخش پایانی این آموزش با مفهوم داده پرت یا Outlier آشنا شدیم. یاد گرفتیم که نمودار جعبه ای یا Boxplot چیست و چه کاربردی در یافتن داده پرت دارد. همچنین آموختیم که شاخص IQR یا Interquartile Range چیست و چگونه در حذف داده های پرت می توان از آن استفاده کرد.
در پایان این درس تمرینی برای درک مفهوم z-score یا نمره استاندارد و نیز skewness یا چولگی تعریف کردیم. از این شاخص ها هم می توان در تشخیص و حذف داده های پرت و نویز استفاده کرد.

 

این آموزش بی نظیر است زیرا:
  • آنچه در مورد پاکسازی داده یاد می گیریم برای هر پروژه ای مستقل از ابزار، قابل استفاده است.
  • مراحل data cleaning را روی یک پروژه واقعی پیش اجرا می کنیم.
  • مهم تر از شناخت نام تابع ها، شما به بینش های تازه در تحلیل داده دست پیدا می کنید.
  • تک تک مراحل از صفر کدنویسی و سورس کدها پیوست می شود.

 

کلید واژگان

آموزش پاکسازی دیتاست – data cleaning چیست ؟ – مراحل پاکسازی دیتاست – آموزش Data Cleaning – پاکسازی داده ها – پاکسازی داده – پاکسازی داده در پایتون – روش های پاکسازی داده ها – پاکسازی مصرف داده – تحلیل داده با پایتون – دوره تحلیل داده با پایتون

سر فصل ها

سر فصل ها

  • تعریف پاکسازی داده چیست ؟
  • مفهوم Data Cleansing یا Data Cleaning چیست ؟
  • هفت مرحله پاکسازی داده در دیتاست و علم داده
  • استفاده از پانداز در پاکسازی داده ها
  • آمار توصیفی در پانداز با دستور describe
  • ترسیم نمودار در پانداز با plot یا matplotlib API
  • کاربرد نمودار پراکندگی یا Scatter Plot در تحلیل داده
  • حذف سطرهای حاوی داده Null با متد dropna
  • جایگزینی داده خالی با یک مقدار ثابت با متد fillna
  • مفهوم و محاسبه میانگین Mean و میانه Median و نما Mode
  • جایگزینی سلول های خالی با شاخص های آماری
  • حذف سطرهای تکراری یا دستور drop_duplicates
  • مفهوم inplace در پانداز و بازنویسی دیتافریم
  • کاربرد متد apply در اعمال تغییرات روی سری و دیتافریم
  • استفاده از متد apply و مفهوم تابع لامبدا lambda در پایتون
  • کاربرد متد rename برای اصلاح عنوان ستون ها یا series
  • مفهوم داده پرت یا outlier چیست؟
  • روش های تشخیص داده های پرت در تحلیل داده
  • استفاده از نمودار جعبه ای برای پیدا کردن داده های پرت
  • مفهوم Box Plot و چارک Quartile و صدک Quantile
  • معنی شاخص IQR یا Interquartile Range
  • استفاده از IQR برای حذف outlier
  • کار با پراپرتی loc property در پانداس
  • تمرین برای استفاده از Z Score و Skewness در حذف داده های پرت
نظرات (0)

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “Data Cleaning چیست ؟ ___ آموزش پاکسازی دیتاست در تحلیل داده با پانداس”

نظرات کاربران در خصوص دوره 

نقد و بررسی‌ها

هنوز بررسی‌ای ثبت نشده است.

اولین کسی باشید که دیدگاهی می نویسد “Data Cleaning چیست ؟ ___ آموزش پاکسازی دیتاست در تحلیل داده با پانداس”

SKU HB-PandasMoon-05-Cleansing Category Tags , , , ,