برامج وتطبيقاتبوت وروبوت

تعلّم Quiet-STaR النماذج اللغوية التفكير قبل الكلام

بوابة الذكاء الاصطناعي - وحدة المتابعة

طوّر باحثون من جامعة ستانفورد وشركة Notbad AI تقنية تُدعى Quiet-STaR، تعلّم نموذج لغوي (LM) التفكير الداخلي قبل إنتاج الناتج.
عندما يتحدث البشر، عادةً ما يكون لدينا حوار داخلي يُشكِّل الكلمات التي نعبّر بها في النهاية. وكلما تفكّرنا قبل الكلام، زادت جودة الكلمات التي ننطقها.
في ورقتهم البحثية، يصف الباحثون كيف قاموا بتدريب نموذج لغوي (Mistral-7B) ليتعلم كيف يقلّد هذه العملية بشكل عام. تُعتبر Quiet-STaR تطويرًا لتقنية أخرى تُدعى STaR، أو العقل المتعلم بنفسه.
تعد STaR طريقة لتدريب النموذج باستخدام عدد قليل من أمثلة الأسئلة مع التفسيرات (المبرَّرات) للإجابات. يستخدم النموذج هذه الأمثلة المتسلسلة من الأفكار لمحاولة الإجابة على الأسئلة بمفرده، واكتشاف المبرَّرات بنفسه.
يقوم STaR بتقييم ما إذا كانت المبرَّرات التي يقترحها تؤدي إلى إجابات صحيحة ويعدلها.
على الرغم من أهمية STaR، إلا أن قدرة التفكير لديه محدودة في سياقات الإجابة على الأسئلة خلال التدريب. يهدف Quiet-STaR إلى تزويد نموذج لغوي بالقدرة العامة على تعلّم التفكير أو تطوير المبرَّرات عبر مجموعة أوسع من النصوص، وليس فقط مجموعات الأسئلة والأجوبة.
أحد الابتكارات الرئيسية في Quiet-STaR هو أنه يُنشئ المبرَّرات أو الأفكار بشكل متوازٍ، متابعًا جميع الرموز في النص الذي يتم معالجته. لا يُخرج هذا الألجوريتم سلسلة المبرَّرات هذه، ولهذا يُطلق عليه اسم “Quiet”.
يقوم الألجوريتم بمعالجة المبرَّرات عبر “رأس الخلط”. يتم تقييم كل مبرَّر بناءً على دقة التنبؤ برمز التالي الذي ينتجه مقارنةً بالتنبؤ الذي يتم إجراؤه بواسطة النموذج الأساسي.
إذا كان النموذج الأساسي (بدون Quiet-STaR) يقدم تنبؤًا أفضل، فإن المبرَّر لم يكن جيدًا. وإذا أدى المبرَّر إلى تنبؤ أكثر دقة بالرمز التالي، فإن الألجوريتم يعلم أنه على شيء جيد.
ثم يستخدم ألجوريتم تعلُّم تعزيزي (REINFORCE) لمعرفة أي المبرَّرات تساعد وأيها تعيق أداء النموذج. والنتيجة هي أن النموذج يتعلم القدرة العامة على التفكير قبل التنبؤ بالرمز التالي.
نتائج Quiet-STaR
اختبر الباحثون نموذج Mistral-7B المدرب بتقنية Quiet-STaR على مجموعات اختبار GSM8K للرياضيات وCommonsenseQA للتفكير المنطقي المعتاد. ووجدوا أن Quiet-STaR حسَّنت التعقيد وقدرات التفكير المباشر بدون تدريب في كل من CommonsenseQA (من 36.3٪ إلى 47.2٪) و GSM8K (من 5.9٪ إلى 10.9٪).
بينما لا يزال التفكير الرياضي لدى Mistral-7B ليس جيدًا جدًا، أظهر Quiet-STaR تحسينًا يصل إلى 85٪ تقريبًا عن النموذج الأساسي، وذلك دون أي ضبط متخصص للبيانات.
أظهرت نتائج الاختبار أيضًا أن التحسينات في الأداء ترتبط بشكل مباشر بعدد الرموز المخصصة للأفكار الداخلية للنموذج. كلما فكر أكثر قبل الإجابة، كانت الإجابة أفضل.
تأتي هذه التحسينات على حساب زيادة كبيرة في الحوسبة. الحوار الداخلي الذي يشارك فيه النموذج أثناء العملية الفكرية يولد العديد من الرموز.
في نهاية المطاف، ستجعل التحسينات في الأجهزة الفوارق الإضافية التي تأتي مع تقنيات مثل هذه ذات أهمية أقل.
يستنتج الباحثون أن العمل المستقبلي على تحسين Quiet-STaR يمكن أن يساعد أيضًا. يمكن أن يقلل توقع التفكير في ما إذا كانت عملية التفكير ضرورية، أو مدتها، من الرموز غير الضرورية.
تعد النتائج المتحققة من تدريب نموذج صغير مثل Mistral-7B باستخدام Quiet-STaR واعدة. يعتقد الباحثون أن “تطبيق التقنيات نفسها.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى