برای مطالعه قسمت های بعدی این مقاله و مقاله های پیرامون موضوع شبکه های عصبی و یادگیری ماشین، کلیک کنید:
تاریخچه شبکه عصبی و یادگیری عمیق ___ (قسمت اول)
شبکه های عصبی چیست __ تاریخچه شبکه عصبی و یادگیری ماشین (قسمت سوم)
یادگیری عمیق از دهه 2000 تا 2010 میلادی __ قسمت آخر تاریخچه شبکه عصبی
شبکه عصبی بازگشتی چیست ؟ آشنایی با شبکههای عصبی بازگشتی (RNN) و (LSTM)
شبکه عصبی کانولوشن یا Convolutional چیست ؟ __ راهنمای جامع به روش ELI5
شبکه عصبی چیست ؟ ___ آشنایی با شبکه های عصبی مصنوعی
دیپ لرنینگ چیست؟ — کاربرد یادگیری عمیق (Deep learning)
شبکههای عصبی بینا میشوند
با پردهبرداری از راز آموزش شبکههای عصبی چند لایه، این موضوع بار دیگر داغ شد و به نظر میرسید که بلندپروازیهای روزنبلات (Rosenblatt) شاید در دسترس باشد. تنها تا سال 1989 طول کشید تا یکی دیگر از یافتههای کلیدی که هم اکنون در کتابها و سخنرانیها به طور جهانی مورد استناد قرار میگیرد، منتشر شود:
“شبکههای پیشخور چند لایه، تخمینگرهای جهانی هستند”.
اساساً، از نظر ریاضی ثابت شد که لایههای متعدد به شبکههای عصبی اجازه میدهد تا هر تابع را از نظر تئوری پیادهسازی کنند، حتی تابع XOR.
اما، این ریاضیات است؛ جایی که میتوانید تصور کنید دارای حافظه و قدرت محاسباتی بیپایان هستید. اما آیا انتشار رو به عقب (backpropagation)، اجازه داد از شبکههای عصبی برای هر چیزی در دنیای واقعی استفاده شود؟ آه، بله!
همچنین در سال 1989، یان لکان (Yann LeCun) و همکارانش، در آزمایشگاه هایAT&T Bell یک کاربرد واقعی مهم از انتشار رو به عقب را در مقاله “استفاده از انتشار رو به عقب برای تشخیص کد پستی دست نویس” (Backpropagation Applied to Handwritten Zip Code Recognition) نشان دادند.
هم رویش منتشر کرده است:
آموزش شبکه عصبی مصنوعی -- از صفر به زبان ساده
شاید تصور کنید اینکه یک رایانه بتواند به درستی رقمهای دست نویس را درک کند، کار چندان چشمگیری نیست، و این روزها بسیار عجیب شده است، اما قبل از انتشار این مقاله، خط خطیهای بهم ریخته و ناهمگون ما انسانها، یک چالش بزرگ برای ذهنهای مرتبتر رایانهها به شمار میآمد.
این نشریه که با مجموعه داده بزرگی از خدمات پستی ایالات متحده کار میکرد، نشان داد که شبکههای عصبی کاملاً قادر به انجام این کار هستند. و مهمتر از همه، این اولین بار بود که نیاز عملی برای اصلاحات کلیدی شبکههای عصبی، فراتر از انتشار رو به عقب و به سوی یادگیری عمیق مدرن برجسته شد:
“کارهای کلاسیک در تشخیص الگوی بصری، مزیت استخراج ویژگیهای محلی و ترکیب کردن آنها را برای ایجاد ویژگیهای مرتبه بالاتر نشان داده است. چنین اطلاعاتی را میتوان با مجبور کردن واحدهای مخفی به ترکیب منابع محلی اطلاعات، به آسانی در شبکه ایجاد کرد.
ویژگیهای متمایز یک شیء میتواند در مکانهای مختلف روی تصویر ورودی ظاهر شود. بنابراین داشتن مجموعهای از آشکارسازهای ویژگی که بتوانند نمونه خاصی از یک ویژگی را در هر نقطه از محل ورودی تشخیص دهند، منطقی به نظر میرسد. از آنجا که مکان دقیق یک ویژگی ربطی به دستهبندی ندارد، میتوانیم برخی از اطلاعات موقعیت را در این فرایند از دست بدهیم. با این وجود، اطلاعات تقریبی موقعیت باید حفظ شود تا سطوح بعدی بتوانند ویژگیهای پیچیدهتر و درجه بالاتر را تشخیص دهند (فوکوشیما (Fukushima) 1980؛ موزر (Mozer) 1987).
یا به طور واضحتر اولین لایه مخفی شبکه عصبی، کانولوشنی (convolutional) بود؛ به جای اینکه هر نورون برای هر پیکسل تصویر ورودی، وزن متفاوتی داشته باشد (40×60 = 2400 وزن)، نورونها فقط دارای مجموعه کوچکی از وزنها هستند (5×5 = 25) که به دستهای از زیر مجموعههای کوچک تصویر با همان اندازه اعمال شدهاند.
بنابراین، به عنوان مثال، به جای اینکه 4 نورون مختلف یاد بگیرند که خطوط 45 درجه را در هر 4 گوشه تصویر ورودی تشخیص دهند، یک نورون واحد میتواند یاد بگیرد که خطوط 45 درجه را در زیر مجموعههای تصویر تشخیص دهد و این کار را در همه جای تصویر انجام دهد.
لایهها کار اول را به شیوهای مشابه انجام میدهند، اما از ویژگیهای “محلی” پیدا شده در لایه مخفی قبلی به جای تصاویر پیکسلی استفاده میکنند. به این ترتیببخش های بزرگتری از تصویر را “مشاهده” میکنند، زیرا اطلاعاتی از زیر مجموعههای بزرگتر تصویر را ترکیب میکنند.
سرانجام، دو لایه آخر، صرفا لایههای عصبی معمولی هستند که از ویژگیهای بزرگتر مرتبه بالاتر ایجاد شده توسط لایههای کانولوشنی، استفاده میکنند تا تعیین کنند تصویر ورودی متعلق به کدام رقم است.
روشی که در این مقاله مربوط به سال 1989 پیشنهاد شد، اساس سیستمهای چک خوان ملی شد که توسط لکان در این جواهر ویدئویی نشان داده شده است:
برای تماشای این فیلم تاریخی در YouTube کلیک کنید (+)
دلیل مفید بودن آن، هرچند از نظر ریاضی روشن نباشد، اما بصورت شهودی مشخص است: بدون چنین محدودیتهایی، شبکه باید همان چیزهای ساده (مانند تشخیص خطوط 45 درجه، دایرههای کوچک و …) را برای هر قسمت از تصویر چندین بار بیاموزد. اما با وجود محدودیت، صرفا یک نورون باید هر ویژگی ساده را یاد بگیرد؛ و با وزنهای بسیار کمتر در کل، میتواند خیلی سریعتر انجام شود!
علاوه بر این، از آنجا که مکان دقیق پیکسل چنین ویژگیهایی اهمیت ندارد، نورون اساسا میتواند هنگام اعمال وزنها، از زیر مجموعههای مجاور در تصویر صرف نظر کند – یعنی زیرنمونهگیری (subsampling)، که اکنون یک نوع جمعآوری (پولینگ یا pooling) به حساب میآید – که زمان آموزش را بیشتر کاهش میدهد.
افزودن این دو نوع لایه – یعنی لایههای کانولوشنی و پولینگ – تمایز اصلی شبکههای عصبی کانولوشنی (CNNs/ConvNets) از شبکههای عصبی ساده قدیمی است.
در همین زمان، ایده کانولوشن، “اشتراک وزن” نامیده شد و در واقع در تحلیل گسترده توسط روملهارت (Rumelhart)، هینتون (Hinton) و ویلیامز (Williams) پیرامون انتشار رو به عقب در سال 1986 مورد بحث قرار گرفت.
در واقع، اعتبار آن حتی به عقبتر برمیگردد – تحلیل مینسکی (Minsky) و پاپرت (Papert) در سال 1969 از پرسپترونها به اندازه کافی کامل بود تا مسئلهای را ایجاد کند که این ایده را برانگیزد. اما، همانند گذشته، دیگران نیز به طور مستقل این مفهوم را مورد بررسی قرار دادهاند: میتوان از کاناهیکو فوکوشیما (Kunihiko Fukushima) نام برد که در سال 1980 به بیان خود از نوروکاگنیترون (Neurocognitron) پرداخت.
و مانند گذشته، ایدههای پشت آن، از مطالعات پیرامون مغز الهام گرفت:
” بر اساس مدل سلسله مراتبی هوبل و ویزل (Hubel and Wiesel)، شبکه عصبی در قشر بینایی، دارای یک ساختار سلسله مراتبی است: LGB (جسم زانویی جانبی)-> سلولهای ساده-> سلولهای پیچیده-> سلولهای فوق پیچیده مرتبه پایینتر > سلولهای فوق پیچیده مرتبه بالاتر.
همچنین پیشنهاد میشود که شبکه عصبی بین سلولهای فوق پیچیده مرتبه پایینتر و سلولهای فوق پیچیده مرتبه بالاتر دارای ساختاری شبیه به شبکه بین سلولهای ساده و سلولهای پیچیده باشد.
در این سلسله مراتب، یک سلول در طبقه بالاتر عموماً تمایل دارد به صورت گزینشی، به یک ویژگی پیچیدهتر از الگوی محرک پاسخ دهد. در عین حال، دارای میدان پذیرش بزرگ تری است و نسبت به تغییر موقعیت الگوی محرک حساس نیست. از این رو، ساختاری مشابه مدل سلسله مراتبی در مدل ما معرفی شده است.”
لکان، همچنان یکی از حامیان اصلی CNNها در آزمایشگاه Bell بود و کار او بر روی آنها منجر به استفاده تجاری سیستم چک خوانی در اواسط دهه 90 شد؛ صحبتها و مصاحبههای او اغلب شامل این واقعیت است که “در مقطعی در اواخر دهه 1990، یکی از این سیستمها، 10 تا 20 درصد از کل چکهای ایالات متحده را میخواند”.
پیش از این در همرویش فیلم شبکه عصبی کانولوشنی به زبان ساده منتشر شد. برای دیدن فیلم معرفی این آموزش بر روی این لینک (+) و یا پخش کننده پایین کلیک کنید:
برای دریافت بسته کامل این آموزش بر روی لینک زیر کلیک کنید:
شبکه عصبی کانولوشن به زبان ساده
شبکههای عصبی بدون نظارت میشوند
خودکارسازی عمل رایج و جالب خواندن چکها، نمونهای عالی از این است که از یادگیری ماشین چه استفادهای میتوان کرد. یک کاربرد از آن، که شاید کمتر قابل پیشبینی باشد چیست؟ فشردهسازی که البته به معنای یافتن یک بازنمایی کوچکتر از برخی دادههاست که میتوان دادههای اصلی را از آنها بازسازی کرد.
فشردهسازی یاد گرفته شده ممکن است بسیار بهتر از طرحهای مرسوم فشردهسازی دادهها عمل کند، در صورتیکه الگوریتم یادگیری بتواند ویژگیهای از دست رفته در روشهای ذخیرهسازی داده را پیدا کند. انجام آن بسیار آسان است؛ فقط یک شبکه عصبی را با یک لایه مخفی کوچک آموزش دهید که صرفا ورودی را به عنوان خروجی تحویل دهد:
این یک شبکه عصبی خودرمزنگار (autoencoder) و روشی برای یادگیری فشردهسازی است: دادهها را به صورت مؤثر به یک قالب فشرده، ترجمه (رمزنگاری یا رمزگذاری) میکند و به خودش (auto) برمیگرداند.
ببینید، لایه خروجی، خروجیهای خود را محاسبه میکند، که در حالت ایده آل با ورودی شبکه عصبی یکسان است و فقط از خروجیهای لایه مخفی استفاده میکند. از آنجا که لایه مخفی، خروجیهای کمتری نسبت به لایه ورودی دارد، خروجی لایه مخفی، یک بازنمایی فشرده از دادههای ورودی است که با لایه خروجی قابل بازسازی است.
در اینجا به یک نکته ظریف توجه کنید: تنها چیزی که برای آموزش نیاز داریم، یکسری دادههای ورودی است. این امر برخلاف الزامات یادگیری ماشین تحت نظارت است که برای تخمین یک تابع که بتواند خروجیها را بر اساس ورودیها محاسبه کند، به مجموعهای از زوجهای ورودی-خروجی (دادههای دارای برچسب) نیاز دارد.
و در واقع، خودرمزنگارها، نوعی یادگیری تحت نظارت نیستند. آنها نوعی یادگیری بدون نظارت (unsupervised learning) هستند که فقط به مجموعهای از دادههای ورودی (دادههای بدون برچسب) برای یافتن ساختار پنهان درون آن دادهها نیاز دارند.
به عبارت دیگر، یادگیری بدون نظارت، یک تابع را بصورتی تخمین نمیزند که از دادههای ورودی به بازنمایی مفید دیگری از آن دادهها برسد. در این مورد، این فقط یک بازنمایی کوچکتر است که هنوز میتوان دادههای اصلی را از آن بازسازی کرد، اما میتوان از آن برای یافتن گروهی از دادههای مشابه (خوشهبندی) یا استنباط دیگر متغیرهای نهفته (برخی جنبهها که میدانیم برای دادهها وجود دارد اما مقدار آنها مشخص نیست) استفاده کرد.
کاربردهای بدون نظارت دیگری از شبکههای عصبی، قبل و بعد از کشف انتشار رو به عقب (backpropagation) مورد بررسی قرار گرفتند. مهمترین آنها، نگاشتهای خودسازماندهی (Self Organizing Maps) است که یک بازنمایی با بُعد کم از دادهها را ارائه میدهد که برای تجسم خوب است. و تئوری رزونانس تطبیقی ، که میتواند دستهبندی دادههای ورودی دلخواه را یاد بگیرد، بدون اینکه دستهبندی های صحیح به آن گفته شده باشد.
اگر کمی به این موضوع فکر کنید، میبینید که چیزهای زیادی را میتوان از دادههای بدون برچسب یاد گرفت. فرض کنید مجموعه دادهای متشکل از چندین تصویر از ارقام دست نویس دارید، بدون برچسبهایی که نشان دهد هر تصویر مربوط به کدام رقم است.
خب، یک تصویر حاوی رقمی از آن مجموعه داده، به احتمال زیاد شبیه به همه تصاویر دیگر از همان رقم است و بنابراین اگرچه ممکن است رایانه نداند که همه آن تصاویر با کدام رقم مطابقت دارد، اما باید بفهمد همه آنها به یک رقم یکسان تعلق دارند.
این تشخیص الگو (pattern recognition)، در واقع همان چیزی است که بیشتر یادگیری ماشین در مورد آن است، و مسلما مبنای قدرتهای بزرگ مغز انسان است. اما، اجازه دهید از سفر هیجان انگیز خود در دنیای یادگیری عمیق، منحرف نشویم و به موضوع رمزنگارها برگردیم!
همانند اشتراک وزن، ایده خودرمزنگارها برای اولین بار در تحلیل ذکر شده در سال 1986 در مورد انتشار رو به عقب مورد بحث قرار گرفت و مانند اشتراک وزن، مجدداً در سالهای بعد در تحقیقات بیشتری ظاهر شد، از جمله توسط خود هینتون.
این مقاله، با عنوان جالب “خودرمزنگارها، حداقل طول توصیف و انرژی آزاد هلمهولتز” (Autoencoders, Minimum Description Length, and Helmholts Free Energy)، بیان میکند که “یک رویکرد طبیعی برای یادگیری بدون نظارت، استفاده از مدلی است که توزیع احتمال را بر بردارهای رؤیت پذیر تعریف میکند” و از یک شبکه عصبی برای یادگیری چنین مدلی استفاده میکند. بنابراین در اینجا یک کار تمیز دیگر وجود دارد که میتوانید با شبکههای عصبی انجام دهید: تخمین توزیعهای احتمال.
پیش از این آموزش شبکه عصبی با پایتون در همرویش آپلود شده است. فیلم معرفی این آموزش در پایین آپلود شده است.
برای دریافت بسته کامل این آموزش بر روی لینک زیر کلیک کنید:
آموزش ساخت شبکه عصبی با پایتون (و دیگر زبانها) از صفر
شبکههای عصبی، باورها را جلب میکنند
در واقع، هینتون، قبل از همکاری در نوشتن مقاله سال 1986 در مورد الگوریتم یادگیری انتشار رو به عقب، بر روی یک رویکرد شبکه عصبی برای یادگیری توزیع احتمال در 1985 تحت عنوان “یک الگوریتم یادگیری برای ماشینهای بولتزمن” (A Learning Algorithm for Boltzmann Machines) کار کرد.
ماشینهای بولتزمن، شبکههایی مشابه شبکههای عصبی هستند و واحدهایی دارند که بسیار شبیه به پرسپترونها است، اما به جای محاسبه خروجی بر اساس ورودیها و وزنها، هر واحد در شبکه میتواند احتمال آن را با یک مقدار 1 یا 0، با توجه به مقادیر واحدهای بهم متصل و وزنها، محاسبه کند.
بنابراین واحدها تصادفی (stochastic) هستند؛ یعنی بر اساس توزیع احتمال رفتار میکنند، نه با یک روش قطعی شناخته شده. بخش بولتزمن به یک توزیع احتمال (a probability distribution) اشاره دارد که مربوط به وضعیت ذرات در یک سیستم بر اساس انرژی ذرات و بر اساس دمای ترمودینامیکی آن سیستم است.
این توزیع نه تنها ریاضیات ماشینهای بولتزمن، بلکه نحوه تفسیر آن را نیز تعریف میکند: واحدهای موجود در شبکه، خود دارای انرژی و وضعیت هستند و یادگیری با به حداقل رساندن انرژی سیستم انجام میشود؛ یک الهام مستقیم از ترمودینامیک.
اگرچه این تفسیر مبتنی بر انرژی، کمی غیرشهودی است، اما در واقع تنها یک مثال از یک مدل مبتنی بر انرژی است و در چارچوب تئوری یادگیری مبتنی بر انرژی (energy-based learning) جای میگیرد که با آن میتوان بسیاری از الگوریتمهای یادگیری را بیان کرد.
برگردیم به ماشینهای بولتزمن. هنگامی که چنین واحدهایی با هم در یک شبکه قرار میگیرند، یک گراف ایجاد میکنند، و بنابراین یک مدل گرافیکی از دادهها هستند. در اصل، آنها میتوانند کاری شبیه شبکههای عصبی معمولی انجام دهند: چند واحد مخفی (hidden units)، احتمال چند متغیر پنهان (خروجیها – دستهبندی ها یا ویژگیهای داده) را محاسبه میکنند. این کار با توجه به مقادیر شناخته شده واحدهای قابل مشاهده (visible units) که متغیرهای قابل مشاهده (ورودیها – پیکسلهای تصاویر، کاراکترهای متن و غیره) را نشان میدهند، انجام میشود.
در مثال کلاسیک ما برای طبقهبندی تصاویر ارقام، متغیرهای پنهان (hidden variables)، مقادیر واقعی رقم و متغیرهای قابل مشاهده (visible variables)، پیکسلهای تصویر هستند. با داشتن یک تصویر از رقم “1” به عنوان ورودی، مقدار واحدهای قابل مشاهده مشخص است و واحد مخفی که احتمال تصویر نشان دهنده “1” را مدلسازی میکند، باید دارای احتمال خروجی بالایی باشد.
بنابراین اکنون، برای دستهبندی کردن، روش خوبی برای محاسبه احتمال هر دسته وجود دارد. این بسیار شبیه به محاسبه مقادیر خروجی یک شبکه عصبی دستهبندی معمولی است، اما این شبکهها ترفند ظریف دیگری نیز دارند: آنها میتوانند دادههای ورودی قابل قبول تولید کنند.
این موضوع از معادلات احتمالاتی ناشی میشود – شبکه، نه تنها احتمالات مقادیر متغیرهای پنهان را با توجه به مقادیر شناخته شده متغیرهای قابل مشاهده یاد میگیرد، بلکه معکوس آن را نیز میآموزد – احتمالات قابل مشاهده با توجه به مقادیر پنهان شناخته شده.
بنابراین، اگر بخواهیم یک تصویر از رقم “1” ایجاد کنیم، واحدهای مربوط به متغیرهای پیکسل، احتمالات خروجی 1 را شناختهاند و یک تصویر را میتوان به صورت احتمالاتی تولید کرد. این شبکهها، مدلهای گرافیکی مولد (generative graphical models) هستند.
اگرچه میتوان یادگیری تحت نظارت را با اهدافی بسیار مشابه با شبکههای عصبی معمولی انجام داد، اما دلیل رایج استفاده از این شبکهها، یادگیری بدون نظارت یک مدل مولد خوب – یادگیری احتمالاتی ساختار پنهان برخی از دادهها – است.
بیشتر این موارد چندان جدید نبودند، اما الگوریتم یادگیری ارائه شده و فرمول خاصی که آن را توانمند میساخت، در خود مقاله به این صورت بیان شده است:
“شاید جالبترین جنبه در فرمولبندی ماشین بولتزمن این باشد که به یک الگوریتم یادگیری مستقل از دامنه منجر میشود که قدرت اتصال بین واحدها را به گونهای اصلاح میکند که کل شبکه یک مدل داخلی ایجاد میکند که ساختار زیرین محیط خود را ضبط میکند.
شکستهای زیادی در طول جستجوی چنین الگوریتمهایی رخ داده است (نیول، 1982)، و بسیاری از مردم (به ویژه در هوش مصنوعی) اکنون معتقدند که چنین الگوریتمهایی وجود ندارد.”
بدون پرداختن به جزئیات کامل الگوریتم، در اینجا به برخی از نکات برجسته اشاره میکنیم: این الگوریتم، گونهای از الگوریتمهای حداکثر درست نمایی (maximum-likelihood) است. به زبان ساده، یعنی به دنبال حداکثر احتمال مقادیر واحد قابل مشاهده شبکه، در تطابق با مقادیر صحیح شناخته شده آنها است.
محاسبه بیشترین مقدار محتمل واقعی برای هر واحد، همگی بصورت همزمان، از نظر محاسباتی بسیار هزینه بر میشود. بنابراین در آموزش، از نمونهبرداری گیبز (Gibbs Sampling) – شروع شبکه با مقادیر تصادفی واحدها و تخصیص مجدد مقادیر به واحدها با توجه به مقادیر اتصالات آنها بصورت مکرر – برای دادن برخی مقادیر شناخته شده واقعی استفاده میشود.
هنگام یادگیری با استفاده از یک مجموعه آموزشی، واحدهای قابل مشاهده فقط طوری تنظیم میشوند که دارای مقدار نمونه آموزشی فعلی باشند، بنابراین نمونه برداری برای بدست آوردن مقادیر برای واحدهای مخفی انجام میشود. هنگامی که برخی مقادیر “واقعی” نمونهبرداری شدند، میتوانیم کاری مشابه انتشار رو به عقب انجام دهیم – برای هر وزن یک مشتق بگیریم تا ببینیم چگونه میتوانیم تغییر ایجاد کنیم تا احتمال انجام کار درست توسط شبکه را افزایش دهیم.
هم رویش منتشر کرده است:
آموزش یادگیری ماشین از صفر --- یادگیری سریع و آسان
همانند شبکه عصبی، این الگوریتم را میتوان هم به شیوه تحت نظارت (با مقادیر شناخته شده برای واحدهای مخفی) و هم به شیوه بدون نظارت انجام داد.
اگرچه این الگوریتم نشان داد که کار میکند (به ویژه، با همان مسئله “رمزگذاری” که شبکههای عصبی خودرمزنگار حل کردند)، اما به زودی مشخص شد که این الگوریتم خیلی خوب کار نمیکند – مقاله ردفورد نیل (Redford M. Neal) در سال 1992 با عنوان “یادگیری ارتباطی شبکههای باور” (Connectionist learning of belief networks) نیاز به یک رویکرد سریعتر را با بیان این مطلب تصدیق کرد:
“این قابلیتها باعث میشود ماشین بولتزمن در بسیاری از کاربردها جذاب باشد، جز اینکه روش یادگیری آن عموماً به طرز دردناکی کُند به نظر میرسد.”
و بنابراین نیل، یک ایده مشابه در شبکه باور (belief net) مطرح کرد، که اساسا شبیه یک ماشین بولتزمن با اتصالات جهتدار و رو به جلو است (به طوری که دوباره لایههایی وجود دارند، مانند شبکههای عصبی که قبلا مشاهده کردیم، و برخلاف تصویر ماشین بولتزمن در بالا).
این تغییر، بدون ورود به ریاضیات احتمالی پردردسر، به شبکهها اجازه میداد با یک الگوریتم یادگیری سریعتر آموزش ببینند.
کمی قبلتر، در واقع یک “شبکه باور” را با متغیرهای باران و آب پاش دیدیم. این اصطلاح دقیقاً به این دلیل انتخاب شد که این نوع مدلسازی مبتنی بر احتمال، علاوه بر پیوند آن با ایدههای مربوط به حوزه یادگیری ماشین، ارتباط تنگاتنگی با ایدههای احتمالاتی حوزه ریاضی دارد.
اگرچه این رویکرد، یک پیشرفت در ماشینهای بولتزمن به حساب میآمد، اما هنوز خیلی کند بود – ریاضیات برای بدست آوردن مناسب روابط احتمالاتی بین متغیرها به گونهای است که معمولاً حجم زیادی از محاسبات بدون ترفندهای سادهسازی مورد نیاز است.
و بنابراین هینتون، به همراه نیل و دو نویسنده دیگر، به زودی ترفندهای اضافی را در مقاله “الگوریتم خواب و بیداری برای شبکههای عصبی بدون نظارت” (The wake-sleep algorithm for unsupervised neural networks) در سال 1995 ارائه کردند. این ترفندها به یک راه اندازی متفاوت شبکه باور نیاز داشتند که در آن زمان با عنوان “ماشین هلمهولتز” (The Helmholtz Machine) شناخته میشدند.
با بیان جزئیات، بار دیگر، ایده اصلی این بود که مجموعههای جداگانهای از وزنها برای استنباط متغیرهای پنهان از متغیرهای قابل مشاهده (وزن های تشخیص) و بالعکس (وزن های مولد) وجود داشته باشد و جنبه جهتدار بودن شبکههای باور نیل حفظ شود. این باعث میشود آموزش بسیار سریعتر انجام شود و در عین حال، برای مسائل یادگیری بدون نظارت و تحت نظارت ماشینهای بولتزمن قابل استفاده باشد.
سرانجام، شبکههای باور را میشد تا حدی سریع آموزش داد! این پیشرفت الگوریتمی هرچند چندان تأثیرگذار نبود، اما یک گام مهم رو به جلو برای آموزش بدون نظارت شبکههای باور بود، تا حدی که میتوانست به عنوان یک همراه برای انتشارات تقریباً ده ساله در زمینه انتشار رو به عقب تلقی شود.
اما، در این برهه، روشهای جدید یادگیری ماشین نیز شروع به پیدایش کرده بودند و مردم دوباره در مورد شبکههای عصبی دچار تردید شدند، زیرا این شبکهها بسیار مبتنی بر شهودیات به نظر میرسیدند و کامپیوترها هنوز به سختی قادر به برآوردن نیازهای محاسباتی آنها بودند. همانطور که به زودی خواهیم دید، زمستان جدید هوش مصنوعی برای شبکههای عصبی چند سال بعد آغاز شد …
+ پیش از این آموزش شبکه عصبی LSTM برای پیش بینی قیمت بازار در همرویش منتشر شد. برای دیدن فیلم معرفی این بسته بر روی این لینک (+) و یا پخش کننده پایین کلیک کنید:
برای دریافت بسته کامل آموزش اینجا(+) کلیک کنید.
کلیدواژگان
تاریخچه یادگیری ماشین – تاریخچه یادگیری ماشینی – یادگیری ماشین – یادگیری ماشینی – مبانی یادگیری ماشین – تاریخچه شبکه عصبی – تاریخچه شبکه های عصبی – تاریخچه شبکه عصبی کانولوشن – شبکه عصبی چیست – شبکه عصبی – شبکه های عصبی – شبکه عصبی مصنوعی چیست – شبکه عصبی فازی چیست – شبکه عصبی عمیق چیست – شبکه های عصبی چیست – شبکه عصبی کانولوشن – شبکه های عصبی کانولوشن – تاریخچه شبکه عصبی کانولوشن – شبکه های عصبی کانولوشنی – شبکه عصبی کانولوشن چیست – شبکه عصبی کانولوشنال – شبکه عصبی کانولوشن عمیق – شبکه عصبی کانولوشن به زبان ساده – ماشین بولتزمن – ماشین بولتزمن چیست – ماشین بولتزمن محدود – ماشین بولتزمن محدود چیست – ماشین های بولتزمن – یادگیری ماشین بولتزمن – تاریخچه یادگیری عمیق – تاریخچه شبکه عصبی چیست – تاریخچه شبکه عصبی – شبکه عصبی چیست
منبع
دوره های آموزشی مرتبط
- آموزش بینایی کامپیوتر با پایتون و OpenCV ___ بسته جامع ۲۹۸,۰۰۰ تومان
- آموزش تشخیص اشیای اختصاصی با YOLO ۷۵,۰۰۰ تومان