مقدمه
“دادهها ارزشمند هستند و ماندگاری آنها از خود سیستمها بیشتر خواهد بود” – تیم برنرز لی.
در دنیای پر سرعت امروز، داده، واژهای است که به تازگی باب شده است. تکنولوژی به سرعت در حال گسترش است.
دادهها تقریباً در همه جا وجود دارند و در حوزههای مختلفی حاضر هستند. اکنون مشاغل قادر به درک اهمیت دادهها و سهم آنها هستند. دادهها، وقتی به اطلاعات تبدیل شوند، بینش بسیار ارزشمندی برای تصمیم گیری فراهم میکنند.
داده در دنیای امروز، یک دارایی حیاتی برای کسب و کار به شمار میآید.
بسیاری از اصطلاحات مربوط به داده از جمله تحلیل داده (Data Analytics)، علم داده، داده کاوی، انبار داده (Data Warehousing) و غیره، پا به عرصه وجود گذاشتهاند.
داده کاوی و علم داده، مهم ترین مفاهیم در تکنولوژی هستند. هر دو حوزه، حول محور داده میچرخد.
1) داده کاوی چیست؟
داده کاوی عبارت است از: فرایند تجزیه و تحلیل دادهها از زوایای مختلف، کشف گرایشها و الگوهای پنهان موجود در حجم زیاد دادهها و جمع بندی نتایج به صورت اطلاعات مفید. این حوزه، یک زیر مجموعه از علم داده است.
میتوان گفت که داده کاوی، فرآیند استخراج دانش از دادهها است.
هم رویش منتشر کرده است:
آموزش وب اسکریپینگ با پایتون _____ بسته مقدماتی
داده کاوی را میتوان به شش مرحله تقسیم کرد:
پاکسازی دادهها:
این اولین مرحله در فرآیند داده کاوی است. در این مرحله، دادههای غیردقیق و متقلبانه (tricky)، شناسایی و از مجموعه دادههای موجود حذف میشوند.
ادغام دادهها (Data integration):
داده کاوی، دادهها را از منابع مختلف جمع آوری میکند تا قابل استفاده شوند. بنابراین، در این مرحله، اطلاعات جدید با دادههای موجود ادغام میشوند.
تبدیل دادهها (Data Transformation):
در مرحله سوم، دادهها از یک قالب به قالب دیگر تبدیل میشوند. برای این کار، از تکنیکهایی مانند صاف کردن (Smoothing)، تجمیع (Aggregation)، تعمیم (Generalization)، نرمالیزه کردن (Normalization) و ساخت ویژگی (Attribute Construction) استفاده میشود.
گسسته سازی دادهها:
در طی این فرایند، تعداد زیادی از مقادیر دادهها، به تکههای کوچکتری از دادهها تبدیل میشوند تا ارزیابی و مدیریت دادهها آسان شود. برخی از تکنیکهای مشهور گسسته سازی دادهها عبارتند از: تحلیل هیستوگرام، روش Binning، تحلیل خوشهای، تحلیل درخت تصمیم و … .
سلسله مراتب مفهوم (Concept Hierarchies):
سلسله مراتب مفهوم، دنبالهای از نگاشتها با مجموعهای از مفاهیم کلی تر به مفاهیم تخصصی را تشکیل میدهد. به طور مشابه، مفاهیم سطح پایین را به مفاهیم سطح بالاتر نگاشت میکند. به عبارت دیگر، نگاشت از بالا به پایین و نگاشت از پایین به بالا.
ارزیابی و ارائه الگو:
پس از گذراندن مراحل قبل، هنگامی که الگوها و گرایشها شناسایی شدند، دادهها به صورت نمودار، جدول و دیاگرام، نمایش داده میشوند تا با حداقل دانش آماری توسط کاربران (مثلا ارباب رجوع یا مشتری ها) به راحتی قابل فهم باشند.
همانطور که سکه دو رو دارد، داده کاوی نیز جنبههای مثبت و منفی خود را دارد.
جنبههای مثبت:
مدیریت بهتر ارتباط با مشتری.
فراهم کردن یک حاشیه قابل رقابت.
پیش بینی دقیق تمایلات بازار.
جنبههای منفی:
بکاراندازی (deployment) اولیه، هزینه بر است.
مسائل امنیتی و حریم خصوصی.
2) علم داده چیست؟
علم داده، رشتهای است که از روشها و فرایندهای علمی برای استخراج دانش از مجموعه دادههای بزرگ ساختاریافته و غیرساختاریافته استفاده میکند. این رشته، ادغام حوزههای مختلفی مانند ریاضیات، علوم کامپیوتر، آمار و هوش کسب و کار (Business acumen) است.
به بیان ساده، علم داده، علم مبتنی بر داده (data-driven) است.
هم رویش منتشر کرده است:
آموزش NumPy --- دانشمند داده شوید!
فرآیند مربوط به علم داده را میتوان به صورت زیر خلاصه کرد:
درک کسب و کار:
این اولین گام است که در آن، باید درک کاملی از کسب و کار و اهداف آن بدست آورد. برای استفاده از تکنیکهای علم داده، پیش نیاز کار، تعریف یک مسئله است. بدین ترتیب، تنها پس از درک صحیح از کسب و کار میتوانیم هدف خاصی را برای تجزیه و تحلیل تنظیم کنیم که با هدف کسب و کار هماهنگ باشد.
درک دادهها:
پس از درک کسب و کار، وظیفه بعدی درک دادهها است. تمام دادههای موجود باید در این مرحله جمع آوری شوند. دانشمندان داده میتوانند به تیم کسب و کار رجوع کنند؛ زیرا این تیم، آگاهی بیشتری از دادههای موجود در سازمان دارد. در این مرحله، دادهها توصیف میشوند، دادههای مرتبط از فیلتر عبور میکنند، ساختار داده و نوع داده تعریف میشود. دادهها با استفاده از ابزارهای گرافیکی کاوش میشوند.
آماده سازی دادهها:
این گام، زمانبرترین مرحله در فرآیند داده کاوی است اما در عین حال، مهمترین مرحله نیز به شمار میآید. این مرحله، شامل فیلتر کردن دادهها، ادغام مجموعههای داده، پاکسازی دادهها، بررسی اشتباه در دادهها و تصحیح آنهاست.
تحلیل دادههای اکتشافی (Exploratory Data Analysis):
در این مرحله، برخی از راه حلها مفهوم سازی میشوند و عوامل موثر بر آنها، قبل از ساختن مدل، مورد تجزیه و تحلیل قرار میگیرند.
مدل سازی دادهها:
در این مرحله، روابط بین انواع مختلف اطلاعات برای ذخیره در پایگاه داده ترسیم میشود. یکی از اهداف مدل سازی دادهها، ایجاد کارآمدترین روش ذخیره اطلاعات است.
ارزیابی مدل:
در این مرحله، مدل، مورد ارزیابی قرار میگیرد تا آمادگی آن برای بکارگیری بررسی شود. این مدل با معیارهایی که به دقت روی آنها فکر شده، آزمایش میشود. لازم است این ارزیابی تا زمان دستیابی به نتایج رضایت بخش انجام شود. بنابراین، فرایند ارزیابی مدل، به انتخاب و ساخت یک مدل کامل کمک میکند.
بکارگیری مدل (Model Deployment):
این آخرین مرحله در چرخه حیات یا فرآیند علم داده است. پس از ارزیابی دقیق، سرانجام مدل مورد استفاده قرار می گیرد. این مدل، برای پیش بینی با استفاده از دادهها به کار گرفته میشود.
3) تفاوت بین داده کاوی و علم داده
داده کاوی:
- یک روش است.
- عمدتا با دادههای ساختاریافته سروکار دارد.
- پیرامون یافتن اطلاعات مفید در یک مجموعه داده و استفاده از همان موارد برای کشف گرایشها و الگوهای پنهان است.
- بیشتر مربوط به اهداف تجاری و کسب و کار است.
- هدف آن، جمع آوری دادهها از منابع مختلف و قابل استفاده کردن آنهاست.
علم داده:
- یک رشته تحصیلی است.
- با اشکال مختلف داده، از قبیل ساختار یافته و غیرساختاریافته سروکار دارد.
- یک حوزه گسترده است شامل دریافت اطلاعات، تحلیل و ترسیم بینش از آنها.
- عمدتا برای اهداف علمی مفید است.
- هدف آن، ساخت محصولات داده محور و پیش بینیهای دقیق و تصمیم گیریهای آگاهانه است.
نتیجه گیری
داده کاوی و علم داده اغلب به جای یکدیگر استفاده میشوند، اما با توجه به بحث بالا پیرامون مقایسه داده کاوی و علم داده، میتوان دریافت که این دو مفهوم با یکدیگر متفاوت هستند.
انقلاب داده، روز به روز در حال گسترش است و تقریباً در همه بخشهای اقتصاد خود را نشان میدهد. این موضوع همچنین درهای بسیاری را به روی مشاغل جدید باز میکند و فرصتهای شغلی جدیدی را ایجاد کرده است.
کلیدواژگان
مقایسه داده کاوی و علم داده – تفاوت داده کاوی و علم داده – تفاوت علم داده و داده کاوی – مقایسه علم داده و داده کاوی – داده کاوی چیست – متن کاوی چیست – دیتا ماینینگ چیست – داده کاوی چیست و چه کاربردی دارد – data mining چیست – مقاله داده کاوی چیست – علم داده کاوی چیست – مفهوم داده کاوی چیست – علم داده چیست – مقاله در مورد علم داده – متخصص علم داده چیست – علم داده به زبان ساده – مراحل داده کاوی – مراحل داده کاوی را نام ببرید – مراحل داده کاوی چیست – مراحل انجام داده کاوی – مراحل مختلف داده کاوی – فرایند علم داده – کاربرد علم داده – مراحل علم داده – مسیر یادگیری علم داده – دیتا ساینس – دیتا ساینس چیست