هاروارد چه شغلی را به عنوان جذابترین شغل قرن بیست و یکم نامید؟
درست است … دانشمند داده
بنابراین، راز مخفی دانشمند داده دقیقا چیست ؟ و این شخص واقعا هر روز در محل کار چکار می کند ؟ دانشمند داده کیست ؟
این مقاله یک تعریف و بحث علم داده فراهم میکند که به معنی کمک به تعریف نقش دانشمند داده و هدف آن، و همچنین مهارتها، صلاحیتها، تحصیلات، تجربه و مسئولیتهای معمول است.
این تعریف تا حدی آزاد است. زیرا واقعا تعریف استانداردی از نقش دانشمند داده وجود ندارد، و با توجه به این که یافتن تجربه ایدهآل و مجموعه مهارت در یک فرد نسبتا نادر است.
این تعریف را میتوان بیشتر با این واقعیت اشتباه گرفت که نقشهای دیگری نیز وجود دارند که گاهی اوقات به عنوان نقشهای یکسان در نظر گرفته میشوند، اما اغلب کاملا متفاوت هستند. برخی از این موارد شامل تحلیلگر داده، مهندس داده، و غیره هستند. بعدا در این مورد بیشتر صحبت خواهیم کرد.
در اینجا یک نمودار وجود دارد که برخی از اصول مشترکی که یک دانشمند داده ممکن است از آنها استفاده کند را نشان میدهد. در حالت ایده آل سطح تجربه و دانش یک دانشمند داده در هر یک از موارد، معمولاً در یک مقیاس از مبتدی تا ماهر و متخصص متفاوت است .
در حالی که موارد بالا، و دیگر رشتهها و حوزههای تخصصی (که در اینجا نشان داده نشده اند)، همه ویژگیهای نقش دانشمند داده هستند، من مایلم پایه و اساس دانشمند داده را به چهار رکن تقسیم کنم. حوزههای تخصصیتر دیگری از تخصص را میتوان از این ارکان به دست آورد.
بگذارید اکنون درباره آنها بحث کنیم.
هم رویش منتشر کرده است:
آموزش Numpy---دانشمند داده شوید
ارکان تخصصی علم داده
در حالی که دانشمندان داده اغلب از زمینههای مختلف آموزشی و کاری میآیند، بیشتر آنها باید دست کم در یک مورد یا در حالت آرمانی در هر چهار مورد زیر متخصص باشند.
بدون هیچ ترتیب خاصی از اولویت یا اهمیت، ارکان تخصصی علم داده عبارتند از:
- خود کسبوکار مورد مطالعه یا دامنه (حوزه) آن
- ریاضیات (شامل آمار و احتمال)
- علوم کامپیوتر (به عنوان مثال، معماری و مهندسی نرم افزار / داده)
- ارتباطات (نوشتاری و کلامی)
مهارتها و تخصصهای دیگری نیز وجود دارند که بسیار مطلوب هستند، اما به نظر من اینها چهار مهارت اصلی هستند. در ادامه این مقاله به این موارد به عنوان ستونهای دانشمند داده اشاره خواهد شد.
+ پیش از این آموزش بینایی کامپیوتر با تنسورفلو منتشر شد. برای دیدن فیلم معرفی این بسته بر روی این لینک (+) و یا پخش کننده پایین کلیک کنید:
برای دریافت بسته کامل این آموزش بر روی لینک زیر کلیک کنید:
آموزش بینایی کامپیوتر با تنسورفلو ــــــــــ فصل ۱: شناسایی تصویر
ستون های دانشمند داده
در واقع، مردم اغلب در یک یا دو ستون از این ستونها مجرب هستند، اما معمولا در همه آنها به یک اندازه مجرب نیستند. اگر با یک دانشمند داده آشنا شوید که در همه چیز واقعا یک متخصص است، در این صورت شما اساسا یک اسب تکشاخ پیدا کردهاید.
براساس این ارکان، تعریف من از دانشمند داده کسی است که بتواند از منابع داده موجود استفاده کند و منابع جدید مورد نیاز را ایجاد کند تا اطلاعات معنیدار و دیدگاههای قابلاجرا را استخراج کند.
یک دانشمند داده این کار را از طریق تخصص در زمینه کسبوکار، ارتباطات موثر و تفسیر نتایج، و استفاده از همه تکنیکهای آماری مربوطه، زبانهای برنامهنویسی، بستههای نرمافزاری و کتابخانهها، و زیرساخت داده انجام میدهد.
بینشهایی که دانشمندان داده کشف میکنند باید برای هدایت تصمیمات کسبوکار و اقدامات در نظر گرفته شده برای دستیابی به اهداف کسبوکار مورد استفاده قرار گیرند.
نمودارهای ون (Venn) علوم داده
میتوان نسخههای مختلف زیادی از نمودار دانشمند داده را پیدا کرد كه به تجسم این ستونها (یا تغییرات) و روابط آنها با یکدیگر کمک کند. دیوید تیلو (David Taylor) یک مقاله عالی در مورد این نمودارهای Venn تحت عنوان نبرد نمودارهای ون علم داده نوشته است. شدیدا توصیه میکنم که آن را بخوانید.
این یکی از نمودارهای ون مورد علاقه من است که توسط استفان کولاسا (Stephan Kolassa) ایجاد شدهاست. شما متوجه خواهید شد که بیضیها در نمودار بسیار شبیه به ستونهای ذکر شده در بالا است.
این نمودار، و مشابه آن، تلاش میکنند تا برچسبها و یا مشخصات فرد یا زمینهای را که در تقاطع هر یک از شایستگیهای اولیه نشاندادهشده، که من در اینجا آن را ستون مینامم، مشخص کنند.
همانطور که این نمودار نشان میدهد، استفان کولاسا “دانشمند عالی اطلاعات” را به عنوان فردی که به همان اندازه در تجارت، برنامهنویسی، آمار و ارتباطات مجرب است، نامگذاری میکند. من کاملا موافقم.
اهداف و دستاوردهای علم داده
برای درک اهمیت این ارکان ابتدا باید اهداف معمول و دستاوردهای مرتبط با ابتکارات علم داده، و همچنین خود فرآیند علم داده را درک کرد. اجازه دهید اول در مورد برخی از اهداف و دستاوردهای علم داده بحث کنیم.
در اینجا فهرستی کوتاه از دستاوردهای علم داده ارائه شدهاست:
- پیشبینی (پیشبینی یک مقدار براساس ورودیها)
- طبقهبندی (به عنوان مثال، اسپم یا غیر اسپم)
- توصیهها (به عنوان مثال، توصیههای Amazon و Netflix)
- تشخیص الگو و گروهبندی (به عنوان مثال، طبقهبندی بدون کلاسهای شناختهشده)
- تشخیص ناهنجاری (به عنوان مثال، تشخیص تقلب)
- بازشناسی (تصویر، متن، صوت، ویدئو، چهره، …)
- بینشهای قابل انتقادی (از طریق داشبورد، گزارشها، تجسمها، …)
- فرایندهای خودکار و تصمیمگیری (برای مثال، تایید کارت اعتباری)
- امتیاز دهی و رتبهبندی (برای مثال، امتیاز FICO )
- تقسیمبندی (برای مثال، بازاریابی مبتنی بر جمعیت)
- بهینهسازی (برای مثال، مدیریت ریسک)
- پیشبینیها (به عنوان مثال، فروش و درآمد)
هر یک از اینها برای پرداختن به یک هدف خاص و / یا حل یک مشکل خاص در نظر گرفته شدهاند.
سوال اصلی این است که کدام هدف، و هدف آن چیست؟
برای مثال، یک دانشمند داده ممکن است فکر کند که هدف او ایجاد یک موتور پیشبینی با عملکرد بالا است. کسب و کاری که قصد دارد از موتور پیشبینی استفاده کند، از سوی دیگر، ممکن است هدف افزایش درآمد را داشته باشد، که میتواند با استفاده از این موتور پیشبینی به دست آید.
در حالی که این ممکن است در نگاه اول یک مساله به نظر نرسد، در واقعیت وضعیت توصیفشده این است که چرا ستون اول (تخصص حوزه کسبوکار)بسیار مهم است. اغلب مدیران ارشد دارای پس زمینههای آموزشی کسبوکار محور، مانند MBA هستند.
در حالی که بسیاری از مدیران افراد فوقالعاده باهوشی هستند، ممکن است در مورد تمام ابزارها، تکنیکها، و الگوریتمهای موجود برای یک دانشمند داده (به عنوان مثال، تجزیه و تحلیل آماری، یادگیری ماشین، هوش مصنوعی، و غیره) اطلاعات خوبی نداشته باشند.
با توجه به این موضوع، ممکن است نتوانند به یک دانشمند داده بگویند که چه چیزی را به عنوان خروجی نهایی دوست دارند، یا منابع داده، ویژگیها (متغیرها)، و مسیر رسیدن به آن را پیشنهاد دهند.
حتی اگر یک مدیر اجرایی قادر به تعیین این باشد که یک موتور توصیه خاص به افزایش درآمد کمک خواهد کرد، ممکن است متوجه نشوند که احتمالا روشهای بسیار دیگری وجود دارد که دادههای شرکت میتوانند برای افزایش درآمد نیز استفاده شوند.
نتیجه این قسمت:
بنابراین نمی توان به اندازه کافی تأکید کرد که دانشمند عالی داده نسبت به عملکرد کلی کسب و کارها و نحوه استفاده از دادههای یک شرکت برای دستیابی به اهداف سطح بالای کسب و کار، درک نسبتاً کاملی دارد.
با تخصص قابلتوجه در زمینه کسبوکار، یک دانشمند داده باید بتواند به طور منظم اقدامات جدید داده را کشف و پیشنهاد کند تا به کسبوکار کمک کند تا به اهداف خود دست یابد و KPI های خود را به حداکثر برساند.
هم رویش منتشر کرده است:
آموزش بینایی کامپیوتر با پایتون و opencv___بسته جامع
فرآیند علم داده
در زیر یک نمودار از مدل فرآیند GABDO (کوتاه شده ی Goals Acquire Build Deliver Optimize) که من در کتابم، “AI برای افراد و کسب وکار” ایجاد و معرفی کردم، آمده است. دانشمندان داده معمولا فرایندی شبیه به این را دنبال میکنند، به خصوص زمانی که مدلهایی را با استفاده از یادگیری ماشین و تکنیکهای مرتبط ایجاد میکنند.
فرآیند GABDO
مدل فرآیند GABDO شامل پنج مرحله تکراری است: اهداف، بدست آوردن، ساخت، تحویل، بهینهسازی. از این رو، با علامت اختصاری GABDO نشان داده میشود. هر گام تکرار شونده است زیرا هر گام میتواند به یک یا چند گام قبل از آن برگردد. اگر میخواهید در مورد این فرآیند و جزئیات آن بیشتر بدانید، لطفا کتاب را بررسی کنید.
در راستی این مقاله، مطالعه مقاله زیر پیشهاد میشود:
مقایسه داده کاوی و علم داده ___ داده کاوی چیست ؟ علم داده چیست ؟
تفاوت داده کاوی و تحلیل داده ــــ تحلیل داده چیست؟ داده کاوی چیست؟
کلید واژگان
علم داده چیست ؟ – دانشمند داده کیست ؟ – علم داده ها – علم داده – ارکان تخصصی علم داده – ارکان علم داده – Data science چیست ؟ – Data scientist کیست ؟ – فرایند علم داده – Data scientist – Data science – علم داده ها چیست
منبع :
what-is-data-science-does-data-scientist-do Scraping