مدل زبانی بزرگ LLM چیست؟

سلام. خیلی ممنونم که این مقاله از مجله هم‌رویش را برای مطالعه انتخاب کردید! آیا میدانید مدل زبانی بزرگ LLM چیست؟ آیا با مدل‌های ترنسفورمر آشنایی دارید؟ آیا میدانید معروف‌ترین این مدل‌ها کدام‌اند؟ مدل‌های زبانی بزرگ (LLM)، جدیدترین پیشرفت‌ها در مدل‌های یادگیری عمیق برای کار بر روی زبان‌های انسانی هستند. برخی کاربردهای مؤثر و کاربردی LLMها اثبات شده است. یک مدل زبانی بزرگ یک مدل یادگیری عمیق آموزش دیده است که متن را به‌نوعی شبیه انسان متوجه می‌شود و می‌تواند تولید ‌کند. در واقع، در پشت سر این LLMها یک مدل بزرگ ترنسفورمر وجود دارد که همه کارها را انجام می‌دهد.

این مقاله به بررسی ساختار مدل‌های زبانی بزرگ برای تقلید از مغز انسان می‌پردازد تا با نحوه عملکرد آنها آشنا شوید . در ادامه با مجله هم رویش همراه باشید تا قدم به قدم با نحوه کار این مدل‌ها و مدل‌‌ ترنسفورمر آشنا شوید. در واقع شما یاد خواهید گرفت:

مدل ترنسفورمر چیست؟
چگونه یک مدل ترنسفورمر، متن را می‌خواند و خروجی تولید می‌کند؟
چگونه یک مدل زبانی بزرگ می‌تواند متنی را به شکلی شبیه انسان تولید کن؟

مدل زبانی بزرگ چیست؟ معروف‌ترین مدل‌های زبانی بزرگ کدام‌اند؟ مدل ترنسفورمر چیست؟ تفاوت مدل زبانی بزرگ و مدل ترنسفومر با یکدیگر چیست؟ آیا می‌دانید چت جی پی تی ChatGPT چگونه کار می‌کند؟ در این مقاله از مجله هم‌رویش، پاسخ این پرسش‌ها خواهید یافت.

مدل-زبانی-بزرگ-LLM-CHATGPT-OPENAI-ترنسفورمر — مدل زبانی بزرگ LLM چیست؟

هم رویش منتشر کرده است:

آموزش ساخت ChatGPT و DALL-E با پایتون و OpenAI API

از مدل ترنسفورمر تا مدل زبانی بزرگ

ما به‌عنوان انسان، متن را به‌عنوان مجموعه‌ای از کلمات درک می‌کنیم. جملات دنباله‌ای از کلمات هستند. اسناد دنباله‌ای از فصل‌ها، بخش‌ها و پاراگراف‌ها هستند. بااین‌حال، برای رایانه‌ها، متن صرفاً دنباله‌ای از کاراکترها است. برای توانمندسازی ماشین‌ها به‌منظور درک متن، می‌توان مدلی مبتنی بر شبکه‌های عصبی بازگشتی ساخت. این مدل یک کلمه یا کاراکتر را در یک‌زمان پردازش می‌کند و یک خروجی را پس از اعمال کل متن ورودی ارائه می‌دهد. این مدل‌ها خیلی خوب کار می‌کنند، با این تفاوت که گاهی اوقات وقتی به پایان کار می‌رسند، آنچه را که در ابتدای دنباله اتفاق افتاده فراموش می‌کنند.

در سال ۲۰۱۷، واسوانی (Vaswani) و همکارانش برای ایجاد مدل ترنسفورمر مقاله‌ای با عنوان “توجه تنها چیزی است که نیاز دارید” منتشر کرد. مدل‌های ترنسفورمر بر اساس مکانیسم توجه (Attention) کار می‌کنند. برخلاف شبکه‌های عصبی بازگشتی، مکانیسم توجه به شما امکان می‌دهد کل جمله یا حتی پاراگراف را به‌جای یک کلمه در یک‌زمان مشاهده کنید. این روش به مدل ترنسفورمر اجازه می‌دهد تا محتوای یک کلمه را بهتر درک کند. بسیاری از پیشرفته‌ترین مدل‌های پردازش زبان طبیعی مبتنی بر ترنسفورمر هستند.

برای پردازش یک ورودی متنی با یک مدل ترنسفورمر، ابتدا باید آن را به دنباله‌ای از کلمات تبدیل کنید. سپس این نشانه‌ها (tokens) به‌صورت اعداد کدگذاری می‌شوند و به جاسازی‌هایی تبدیل می‌شوند که نمایش‌های فضای برداری از نشانه‌ها هستند و معنای خود را حفظ می‌کنند. در مرحله بعد، رمزگذار (encoder) در ترنسفورمر، جاسازی‌های تمام نشانه‌ها را به یک بردار محتوا تبدیل می‌کند. در زیر نمونه‌ای از یک‌رشته متنی، نشانه‌گذاری و جاسازی آن را مشاهده می‌کنید. توجه داشته باشید که نشانه‌گذاری می‌تواند زیر کلمه باشد، مانند کلمه “nosegay” در متن به “nose” و “gay” تبدیل شده است.

As she said this, she looked down at her hands, and was surprised to find that she had put on one of the rabbit’s little gloves while she was talking. “How can I have done that?” thought she, “I must be growing small again.” She got up and went to the table to measure herself by it, and found that, as nearly as she could guess, she was now about two feet high, and was going on shrinking rapidly: soon she found out that the reason of it was the nosegay she held in her hand: she dropped it hastily, just in time to save herself from shrinking away altogether, and found that she was now only three inches high.

مثالی از رشته متن ورودی

[‘As’, ‘ she’, ‘ said’, ‘ this’, ‘,’, ‘ she’, ‘ looked’, ‘ down’, ‘ at’, ‘ her’, ‘ hands’, ‘,’, ‘ and’, ‘ was’, ‘ surprised’, ‘ to’, ‘ find’, ‘ that’, ‘ she’, ‘ had’, ‘ put’, ‘ on’, ‘ one’, ‘ of’, ‘ the’, ‘ rabbit’, “‘s”, ‘ little’, ‘ gloves’, ‘ while’, ‘ she’, ‘ was’, ‘ talking’, ‘.’, ‘ “‘, ‘How’, ‘ can’, ‘ I’, ‘ have’, ‘ done’, ‘ that’, ‘?”‘, ‘ thought’, ‘ she’, ‘,’, ‘ “‘, ‘I’, ‘ must’, ‘ be’, ‘ growing’, ‘ small’, ‘ again’, ‘.”‘, ‘ She’, ‘ got’, ‘ up’, ‘ and’, ‘ went’, ‘ to’, ‘ the’, ‘ table’, ‘ to’, ‘ measure’, ‘ herself’, ‘ by’, ‘ it’, ‘,’, ‘ and’, ‘ found’, ‘ that’, ‘,’, ‘ as’, ‘ nearly’, ‘ as’, ‘ she’, ‘ could’, ‘ guess’, ‘,’, ‘ she’, ‘ was’, ‘ now’, ‘ about’, ‘ two’, ‘ feet’, ‘ high’, ‘,’, ‘ and’, ‘ was’, ‘ going’, ‘ on’, ‘ shrinking’, ‘ rapidly’, ‘:’, ‘ soon’, ‘ she’, ‘ found’, ‘ out’, ‘ that’, ‘ the’, ‘ reason’, ‘ of’, ‘ it’, ‘ was’, ‘ the’, ‘ nose’, ‘gay’, ‘ she’, ‘ held’, ‘ in’, ‘ her’, ‘ hand’, ‘:’, ‘ she’, ‘ dropped’, ‘ it’, ‘ hastily’, ‘,’, ‘ just’, ‘ in’, ‘ time’, ‘ to’, ‘ save’, ‘ herself’, ‘ from’, ‘ shrinking’, ‘ away’, ‘ altogether’, ‘,’, ‘ and’, ‘ found’, ‘ that’, ‘ she’, ‘ was’, ‘ now’, ‘ only’, ‘ three’, ‘ inches’, ‘ high’, ‘.’]

مثالی از متن نشانه‌گذاری شده

بردار محتوا مانند ماهیت و جوهره کل متن ورودی است. با استفاده از این بردار، رمزگشای ترنسفورمر (decoder) بر اساس سرنخ‌ها، خروجی را تولید می‌کند. به‌عنوان‌مثال، می‌توانید ورودی اصلی را به‌عنوان سرنخ ارائه دهید و اجازه دهید رمزگشای ترنسفورمر کلمه بعدی را که به در حالت عادی و در زبان ما انسان‌ها به دنبال کلمه قبلی آورده می‌شود، تولید کند. سپس، می‌توانید از همان رمزگشا دوباره استفاده کنید، اما این بار سرنخ، کلمه بعدی خواهد بود که قبلاً تولید شده است. این فرایند را می‌توان برای ایجاد یک پاراگراف کامل، با شروع از یک جمله اصلی تکرار کرد و این‌گونه می‌توان با داشتن یک جمله اصلی یک پاراگراف متنی را تولید کرد.

به این فرایند تولید نسل خودرگرسیونی (auto-regressive generation) گفته می‌شود. یک مدل زبانی بزرگ دقیقاً این‌گونه کار می‌کند، با این تفاوت که چنین مدل زبانی بزرگی همان مدل ترنسفورمری است که می‌تواند متن ورودی بسیار طولانی بگیرد. بردار محتوا بزرگ است و بنابراین می‌تواند مفاهیم بسیار پیچیده را مدیریت کند و دارای لایه‌های زیادی در رمزگذار و رمزگشای خود است.

چرا Transformer می‌تواند متن را پیش‌بینی کند؟

آندری کارپاثی (Andrej Karpathy) در پست وبلاگ خود “اثربخشی غیرمنطقی شبکه‌های عصبی بازگشتی” نشان داد که شبکه‌های عصبی بازگشتی می‌توانند کلمه بعدی یک متن را به‌خوبی پیش‌بینی کنند. نه‌تنها به این دلیل که در زبان انسانی قواعدی وجود دارد (به‌عنوان‌مثال دستور زبان) که استفاده از کلمات را در مکان‌های مختلف یک جمله محدود می‌کند، بلکه به این دلیل که فراوانی و حشو بسیاری در زبان‌ها وجود دارد.

بر اساس مقاله تأثیرگذار کلود شانون (Claude Shannon)، “پیش‌بینی و آنتروپی انگلیسی چاپ شده“، زبان انگلیسی با وجود داشتن ۲۷ حرف (شامل فاصله) دارای آنتروپی ۲.۱ بیت در هر حرف است. اگر حروف به طور تصادفی استفاده می‌شد، آنتروپی به ۴.۸ بیت افزایش می‌یافت که پیش‌بینی کلمه بعدی که در متن به زبان انسانی می‌آید را آسان‌تر می‌کرد.یادگیری مدل‌های یادگیری ماشین و به‌ویژه مدل‌های ترنسفورمر در انجام چنین پیش‌بینی‌هایی مهارت دارند.

با تکرار این فرایند، یک مدل ترنسفورمر می‌تواند کل متن را کلمه به کلمه تولید کند. بااین‌حال، گرامر یا دستور زبانی که از دید یک مدل ترنسفورمر دیده می‌شود چگونه است؟ اساساً، گرامر نشان می‌دهد که چگونه کلمات در زبان استفاده و به چه ترتیبی آورده می‌شوند. بر این اساس آنها را به بخش‌های مختلف گفتار طبقه‌بندی می‌کند و نیاز به نظم خاصی در یک جمله دارد. با وجود این، شمردن تمام قواعد دستور زبان چالش‌برانگیز است. در واقعیت، مدل ترنسفورمر به طور واضح این قوانین را ذخیره نمی‌کند، در عوض آنها را به طور ضمنی از طریق مثال‌ها به دست می‌آورد. این امکان وجود دارد که مدل فراتر از قوانین دستور زبان، به ایده‌های ارائه شده در مثال‌ها دست یابد، البته به شرطی که مدل ترنسفورمر به‌اندازه کافی بزرگ باشد.

چگونه یک مدل زبانی بزرگ ساخته می‌شود؟

یک مدل زبانی بزرگ یک مدل ترنسفورمر در مقیاس بزرگ است. آن‌قدر بزرگ است که معمولاً روی یک رایانه قابل‌ اجرا نیست. ازاین‌رو طبیعتاً سرویسی است که از طریق API یا یک رابط وب ارائه می‌شود. همان‌طور که می‌توانید انتظار داشته باشید، چنین مدل بزرگی قبل از اینکه بتواند الگوها و ساختارهای زبان را به‌خاطر بسپارد، از مقدار زیادی متن آموخته می‌شود.

به‌عنوان‌مثال، مدل GPT-3 که از سرویس چت جی پی تی ChatGPT پشتیبانی می‌کند، بر روی حجم عظیمی از داده‌های متنی از اینترنت آموزش داده شده است. این آموزش شامل کتاب‌ها، مقالات، وب‌سایت‌ها و منابع مختلف دیگر می‌شود. در طول فرایند آموزش، مدل روابط آماری بین کلمات، عبارات و جملات را یاد می‌گیرد. این امر به مدل اجازه می‌دهد که پاسخ‌های منسجم و مرتبط بامحتوا را در صورت دریافت دستور یا سؤال تولید کند.

مدل GPT-3 با استخراج از این حجم عظیم متن، می‌تواند چندین زبان را متوجه بشود و از موضوعات مختلف اطلاعات داشته باشد. به همین دلیل است که می‌تواند متن را به سبک‌های مختلف تولید کند. در حالی که ممکن است شگفت‌زده شوید از اینکه مدل زبانی بزرگ می‌تواند ترجمه، خلاصه‌سازی متن و پاسخگویی به سؤالات را انجام دهد، تعجب نمی‌کنید که دستور زبان این پاسخ‌ها با گرامر متن اصلی موسوم به prompt، تطابق دارد.

هم رویش منتشر کرده است:

آموزش ChatGPT — شروع سریع ویژه ایرانیان

خلاصه

چندین مدل زبانی بزرگ تابه‌حال توسعه‌یافته است. به‌عنوان‌مثال می‌توان به GPT-3 و GPT-4 از OpenAI و LLaMA از Meta و PaLM2 از Google اشاره کرد. اینها مدل‌هایی هستند که می‌توانند زبان انسانی را درک کنند و همچنین می‌توانند متن تولید کنند.

در این مقاله یاد گرفتید که:

مدل زبانی بزرگ مبتنی بر معماری ترنسفورمر است.
مکانیسم توجه به LLMها اجازه می‌دهد تا وابستگی‌های دوربرد بین کلمات را به‌خاطر بسپارند، بنابراین مدل می‌تواند محتوای متن ورودی را درک کند.
مدل زبان بزرگ می‌تواند متنی را به‌صورت خود بازگشتی بر اساس نشانه‌های تولید شده قبلی تولید کند.

واژگان

منبع

What are Large Language Models

نویسنده :

محمدجواد فرجی

فعال و برنامه نویس حوزه یادگیری ماشین و علاقه مند به یادگیری هوش مصنوعی

محمدجواد فرجی

فعال و برنامه نویس حوزه یادگیری ماشین و علاقه مند به یادگیری هوش مصنوعی

سئو و ویراستاری :

زیبا عامریان هستم فارغ‌التحصیل مهندسی کامپیوتر و متخصص سئو و بازاریابی محتوا. در تیم اجرایی هم‌رویش مدیریت واحد محتوا رو به عهده دارم و امیدوارم که تونسته باشم تاثیر خوبی روی سئو و کیفیت خوانش محتوای هم‌رویش بگذارم.

2 دیدگاه برای “مدل زبانی بزرگ LLM چیست؟ ”

مصطفی آصفی گفته:

مقاله مختصر و مفید با ترجمه بسیار خوب. دست مریزاد مهندس فرجی عزیز

1402/12/03 در 17:40
پاسخ
- محمدجواد فرجی گفته:
  
  سپاسگزارم جناب مهندس آصفی
  
  1402/12/03 در 20:55
  پاسخ