دمج التنبؤ بالرمز التالي وانتشار الفيديو في رؤية الحاسوب والروبوتات
بوابة الذكاء الاصطناعي - وحدة المتابعة
وقد اقترح باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) في معهد ماساتشوستس للتكنولوجيا MIT تعديلًا بسيطًا على مخطط تدريب الانتشار يجعل هذا إزالة الضوضاء للتسلسل أكثر مرونة بكثير.
عند تطبيق نماذج التنبؤ بالرمز التالي ونماذج انتشار التسلسل الكامل في مجالات مثل رؤية الحاسوب والروبوتات، تظهر تباينات في القدرات. يمكن لنماذج التنبؤ بالرمز التالي إنتاج تسلسلات تختلف في الطول. ومع ذلك، فإنها تقوم بهذه العمليات دون إدراك للحالات المرغوبة في المستقبل البعيد – مثل توجيه توليد التسلسل نحو هدف معين على بعد 10 رموز – وبالتالي تتطلب آليات إضافية للتخطيط طويل الأمد. يمكن لنماذج الانتشار إجراء مثل هذا أخذ العينات المشروط بالمستقبل، لكنها تفتقر إلى قدرة نماذج التنبؤ بالرمز التالي على توليد تسلسلات ذات أطوال متغيرة.
يرغب الباحثون من CSAIL في الجمع بين نقاط القوة لكل من النموذجين، لذلك ابتكروا تقنية تدريب نموذج التسلسل تسمى “إجبار الانتشار” (Diffusion Forcing). يأتي الاسم من “التوجيه المعلم” (Teacher Forcing)، وهو مخطط التدريب التقليدي الذي يُحلل توليد التسلسل الكامل إلى خطوات أصغر وأسهل لتوليد الرمز التالي (مثلما يقوم معلم جيد بتبسيط مفهوم معقد).
وجد “إجبار الانتشار” أرضية مشتركة بين نماذج الانتشار والتوجيه المعلم: كلاهما يستخدمان مخططات تدريب تتضمن التنبؤ بالرموز المقنّعة (الضوضاء) من الرموز غير المقنّعة. في حالة نماذج الانتشار، فإنها تضيف الضوضاء تدريجيًا إلى البيانات، والتي يمكن اعتبارها أقنعة جزئية. تقوم طريقة “إجبار الانتشار” التي ابتكرها باحثو MIT بتدريب الشبكات العصبية على تطهير مجموعة من الرموز، وإزالة كميات مختلفة من الضوضاء داخل كل منها مع التنبؤ بالرموز القليلة التالية في نفس الوقت. والنتيجة: نموذج تسلسل مرن وموثوق أدى إلى مقاطع فيديو اصطناعية عالية الجودة واتخاذ قرارات أكثر دقة للروبوتات ووكلاء الذكاء الاصطناعي.
من خلال فرز البيانات الضوضاء والتنبؤ بشكل موثوق بالخطوات التالية في المهمة، يمكن لـ “إجبار الانتشار” مساعدة الروبوت على تجاهل عوامل التشتيت البصرية لإكمال مهام التلاعب. يمكنه أيضًا إنشاء تسلسلات فيديو مستقرة ومتسقة، بل وحتى توجيه وكيل ذكاء اصطناعي عبر متاهات رقمية. قد تسمح هذه الطريقة للروبوتات المنزلية وروبوتات المصانع بالتعميم على مهام جديدة وتحسين وسائل الترفيه التي يولّدها الذكاء الاصطناعي.
يقول المؤلف الرئيسي، طالب الدكتوراه في الهندسة الكهربائية وعلوم الحاسوب (EECS) في معهد ماساتشوستس للتكنولوجيا وعضو CSAIL، بو يوان تشين: “تهدف نماذج التسلسل إلى الشرط على الماضي المعروف والتنبؤ بالمستقبل غير المعروف، وهو نوع من الأقنعة الثنائية. ومع ذلك، لا يجب أن يكون الإخفاء ثنائيًا. مع إجبار الانتشار، نضيف مستويات مختلفة من الضوضاء إلى كل رمز، مما يعمل بمثابة نوع من الإخفاء الجزئي. في وقت الاختبار، يمكن لنظامنا “كشف التمويه” عن مجموعة من الرموز ونشر تسلسل في المستقبل القريب بمستوى ضوضاء أقل. إنه يعرف ما يجب أن يثق به ضمن بياناته للتغلب على المدخلات خارج التوزيع”.
في العديد من التجارب، نجح “إجبار الانتشار” في تجاهل البيانات المضلة لتنفيذ المهام مع توقع الإجراءات المستقبلية.
فعلى سبيل المثال، عند تنفيذه في ذراع روبوتية، ساعد في تبديل فاكهتين لعبتين عبر ثلاث حصائر دائرية، وهو مثال بسيط على مجموعة من المهام طويلة الأمد التي تتطلب ذاكرة. درب الباحثون الروبوت عن طريق التحكم فيه عن بُعد (أو تشغيله عن بُعد) في الواقع الافتراضي. تم تدريب الروبوت على تقليد حركات المستخدم من خلال كاميرته. وعلى الرغم من بدئه من مواقع عشوائية ورؤية عوامل تشتيت مثل حقيبة تسوق تسد العلامات، فقد وضع الأشياء في مواقعها المستهدفة.
لتوليد مقاطع الفيديو، قاموا بتدريب “إجبار الانتشار” على لعب لعبة “ماين كرافت” وبيئات رقمية ملونة تم إنشاؤها داخل محاكي مختبر DeepMind من Google. عند إعطاء إطار واحد من اللقطات، أنتجت الطريقة مقاطع فيديو أكثر استقرارًا ودقة أعلى من النماذج الأساسية المماثلة مثل نموذج انتشار التسلسل الكامل الشبيه بـ Sora ونماذج التنبؤ بالرمز التالي الشبيهة بـ ChatGPT. أنتجت هذه الأساليب مقاطع فيديو بدت غير متسقة، حيث فشل الأخير أحيانًا في إنشاء فيديو يعمل لما بعد 72 إطارًا فقط.
لا يقتصر الأمر على أن “إجبار الانتشار” يولّد مقاطع فيديو رائعة، بل يمكنه أيضًا أن يعمل كمنسق حركة يتجه نحو النتائج أو المكافآت المرغوبة. بفضل مرونته، يمكن لـ “إجبار الانتشار” بشكل فريد توليد خطط ذات أفق متغير، وإجراء بحث شجري، ودمج الحدس بأن المستقبل البعيد أكثر عدم يقينًا من المستقبل القريب. في مهمة حل متاهة ثنائية الأبعاد، تفوق “إجبار الانتشار” ستة نماذج أساسية من خلال توليد خطط أسرع تؤدي إلى موقع الهدف، مما يشير إلى أنه يمكن أن يكون منسقًا فعالًا للروبوتات في المستقبل.
في كل عرض توضيحي، عمل “إجبار الانتشار” كنموذج تسلسل كامل، أو نموذج تنبؤ بالرمز التالي، أو كليهما. وفقًا لتشن، يمكن أن تعمل هذه الطريقة المتنوعة كعمود فقري قوي لـ “نموذج العالم”، وهو نظام ذكاء اصطناعي يمكنه محاكاة ديناميكيات العالم من خلال التدريب على مليارات مقاطع الفيديو على الإنترنت. سيتيح ذلك للروبوتات أداء مهام جديدة من خلال تخيل ما يجب عليهم فعله بناءً على محيطهم. على سبيل المثال، إذا طلبت من روبوت فتح باب دون تدريبه على كيفية القيام بذلك، فيمكن للنموذج إنتاج فيديو يُظهر الجهاز كيفية القيام بذلك.
يبحث الفريق حاليًا في توسيع نطاق طريقته إلى مجموعات بيانات أكبر وأحدث نماذج المحولات لتحسين الأداء. ينوون توسيع عملهم لبناء دماغ روبوت شبيه بـ ChatGPT يساعد الروبوتات على أداء المهام في بيئات جديدة دون عرض توضيحي بشري.
يقول المؤلف الرئيسي فينسنت سيتزمان، أستاذ مساعد في معهد ماساتشوستس للتكنولوجيا وعضو CSAIL، حيث يقود مجموعة تمثيل المشهد: “مع إجبار الانتشار، نقوم بخطوة لجعل توليد الفيديو والروبوتات أقرب إلى بعضهما البعض. في النهاية، نأمل أن نتمكن من استخدام كل المعرفة المخزنة في مقاطع الفيديو على الإنترنت لتمكين الروبوتات من المساعدة في الحياة اليومية. لا تزال هناك العديد من تحديات البحث المثيرة، مثل كيفية تعلم الروبوتات تقليد البشر من خلال مشاهدتهم حتى عندما تختلف أجسامهم اختلافًا كبيرًا عن أجسامنا!”
كتب تشين وسيتزمان الورقة البحثية إلى جانب الباحث الزائر الأخير في معهد ماساتشوستس للتكنولوجيا دييغو مارتي مونسو، والشركاء في CSAIL: يلون دو، طالب دراسات عليا في EECS؛ ماكس سيمتشوفيتز، زميل ما بعد الدكتوراه السابق وأستاذ مساعد قادم في جامعة كارنيجي ميلون؛ وروس تيدريك، أستاذ تويوتا للهندسة الكهربائية وعلوم الحاسوب، والطيران والفضاء، والهندسة الميكانيكية في معهد ماساتشوستس للتكنولوجيا، نائب رئيس أبحاث الروبوتات في معهد تويوتا للبحوث، وعضو CSAIL. حصل عملهم على دعم جزئي من المؤسسة الوطنية للعلوم في الولايات المتحدة، ووكالة علوم وتكنولوجيا الدفاع في سنغافورة، ووكالة مشاريع البحوث المتقدمة للاستخبارات عبر وزارة الداخلية الأمريكية، ومركز أمازون للعلوم. سيقدمون بحثهم في مؤتمر NeurIPS في ديسمبر.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي