روبوتات المنزل الدقيقة تتعلم من الواقع إلى المحاكاة وإلى الواقع
بوابة الذكاء الاصطناعي - وحدة المتابعة
بوابة الذكاء الاصطناعي – وحدة المتابعة
تُعدّ مهام المنزل من أكثر المهام التي تستغرق وقتًا طويلاً، وهي تتصدر قائمة رغبات العديد من عشاق الأتمتة. يسعى العديد من خبراء الروبوتات إلى تطوير مزيج مناسب من الأجهزة والبرامج لتمكين الآلات من تعلم “سياسات عامة” (القواعد والإستراتيجيات التي توجه سلوك الروبوت) تُطبق في جميع الأماكن، تحت جميع الظروف.
ومع ذلك، فإنّ الواقع يُشير إلى أنّ مستخدمي روبوتات المنزل لا يهتمون كثيرًا بقدرة الروبوت على العمل لجيرانهم. لهذا السبب، قرر باحثو معهد ماساتشوستس للتكنولوجيا (MIT) في مختبر علوم الحاسوب والذكاء الاصطناعي (CSAIL) التركيز على إيجاد حلّ للتدريب السهل على سياسات روبوت قوية لمُحيطات محددة للغاية.
يقول مارسيل تورني فيلاسيفي، مساعد باحث في مختبر الذكاء الاصطناعي “Improbable AI” في MIT CSAIL والمؤلف الرئيسي لورقة بحثية حديثة عن هذا العمل: “نهدف إلى جعل الروبوتات تُؤدي أداءً استثنائيًا تحت التأثيرات الخارجية، والتشتيت، و ظروف الإضاءة المتغيرة، و التغيرات في أوضاع الأجسام، كل ذلك ضمن بيئة واحدة. نقترح طريقة لإنشاء توأمان رقميين على الذهاب باستخدام أحدث التطورات في رؤية الحاسوب. باستخدام هواتفهم فقط، يمكن لأي شخص التقاط نسخة رقمية من العالم الحقيقي، ويمكن للروبوتات التدرب في بيئة محاكاة أسرع بكثير من العالم الحقيقي، بفضل التوازي GPU. نهجنا يُلغي الحاجة إلى هندسة مكافآت واسعة النطاق من خلال الاستفادة من بعض العروض التوضيحية العالمية الحقيقية لإطلاق عملية التدريب.”
بالطبع، لا يُعدّ RialTo أكثر تعقيدًا من مجرد موجة بسيطة من الهاتف و (بووم!) روبوت منزلي في خدمتك. يبدأ RialTo باستخدام جهازك لمسح البيئة المستهدفة باستخدام أدوات مثل NeRFStudio و ARCode أو Polycam. بمجرد إعادة بناء المشهد، يمكن للمستخدمين تحميله إلى واجهة RialTo لإجراء تعديلات مفصلة، وإضافة المفاصل الضرورية إلى الروبوتات، و أكثر من ذلك.
يتم تصدير المشهد المُحسّن وإدخاله إلى المحاكي. هنا، الهدف هو تطوير سياسة بناءً على الأفعال و الملاحظات العالمية الحقيقية، مثل سياسة لإمساك كوب على العداد. يتم تكرار هذه العروض التوضيحية العالمية الحقيقية في المحاكاة، مما يُوفر بعض البيانات القيمة للتعلم التعزيزي. يقول تورني: “يساعد ذلك في إنشاء سياسة قوية تُؤدي أداءً جيدًا في كلّ من المحاكاة و العالم الحقيقي. تُساعد خوارزمية محسّنة باستخدام التعلم التعزيزي في توجيه هذه العملية، لضمان فعالية السياسة عند تطبيقها خارج المحاكي.”
أظهرت الاختبارات أنّ RialTo أنشأ سياسات قوية لمجموعة من المهام، سواء في إعدادات المختبر المُتحكم فيها أو في بيئات العالم الحقيقي الأكثر لا توقعًا، مما أدى إلى تحسين بنسبة 67 بالمائة على التعلم بالتقليد مع نفس عدد العروض التوضيحية. وشملت المهام فتح محمصة خبز، ووضع كتاب على رف، ووضع طبق على رف، ووضع كوب على رف، وفتح درج، وفتح خزانة. بالنسبة لكلّ مهمة، اختبر الباحثون أداء النظام تحت ثلاثة مستويات متزايدة من الصعوبة: تغيير أوضاع الأجسام عشوائيًا، وإضافة مشتتات بصرية، و تطبيق اضطرابات فيزيائية خلال تنفيذ المهام. عندما تم اقتران النظام ببيانات العالم الحقيقي، فقد فَوّق طرق التعلم بالتقليد التقليدية، خاصة في الحالات التي تُعاني من الكثير من التشتيت البصري أو الاضطرابات الفيزيائية.
يقول بولكيت أغراوال، مدير مختبر “Improbable AI” و أستاذ مساعد في الهندسة الكهربائية وعلوم الحاسوب (EECS) في MIT و باحث رئيسي في MIT CSAIL و المؤلف الأكبر للورقة البحثية: “تُظهر هذه التجارب أنّ إذا كنا نهتم بأن نكون قويين جداً في بيئة معينة، فإنّ أفضل فكرة هي الاستفادة من التوأمان الرقمي بدلاً من محاولة الحصول على المتانة من خلال جمع بيانات واسعة النطاق في بيئات متنوعة.”
من جهة القيود، يُستغرق RialTo ثلاثة أيام للتدريب الكامل. للتسريع من هذه العملية، يُذكر الفريق تحسين الخوارزميات الأساسية و استخدام نماذج الأساس. التدريب في المحاكاة له أيضًا قيوده، و من الصعب في الوقت الحالي إجراء نقل سهل من المحاكاة إلى الواقع و محاكاة الأجسام القابلة للإِدِهاج أو السوائل.
المستوى التالي
ما هو مستقبل RialTo؟ بناءً على جهود سابق، يعمل العلماء على الحفاظ على المتانة ضد مختلف الاضطرابات مع تحسين قدرة النموذج على التكيف مع بيئات جديدة. يقول تورني: “مسعانا التالي هو هذا النهج لاستخدام نماذج مدربة مسبقًا، و تسريع عملية التعلم، و تقليل الإدخال البشري، و تحقيق قدرات تعميم أوسع.”
يقول تورني: “نحن متحمسون جداً لمفهوم برمجة الروبوت “على الذهاب” ، حيث يمكن للروبوتات مسح بيئتها بشكل مستقل و التعلم كيفية حلّ مهام معينة في المحاكاة. في حين أنّ طريقتنا الحالية لها قيود – مثل الاحتياج إلى بعض العروض التوضيحية الأولية من قبل الإنسان و وقت حسابي كبير لتدريب هذه السياسات (تصل إلى ثلاثة أيام) – نراها خطوة مهمة نحو تحقيق التعلم و نشر الروبوت “على الذهاب”. يُقربنا هذا النهج من مستقبل لا تحتاج فيه الروبوتات إلى سياسة مُسبقة التكوين تغطي كلّ السيناريوهات. بدلاً من ذلك، يمكنها التعلم مهام جديدة بسرعة دون تفاعل واسع النطاق في العالم الحقيقي. من وجهة نظري، يمكن أن يُسرع هذا التطور من التطبيق العملي للروبوتات أسرع بكثير من الاعتماد فقط على سياسة عالمية وشاملة للجميع.”
تقول زوي تشين، طالبة دكتوراه في علوم الحاسوب في جامعة واشنطن التي لم تشارك في الورقة البحثية: “لِنشر الروبوتات في العالم الحقيقي، اعتمد الباحثون تقليديًا على طرق مثل التعلم بالتقليد من بيانات الخبراء، والتي يمكن أن تكون باهظة التكلفة، أو التعلم التعزيزي، والتي يمكن أن تكون غير آمنة. يُعالج RialTo مباشرة كلّ من قيود الأمان في RL [التعلم الروبوتي] في العالم الحقيقي، و قيود البيانات الفعالة لطرق التعلم المُدار بالبيانات، مع خط أنابيب الواقع إلى المحاكاة إلى الواقع المبتكر. لا يضمن هذا الخط الأنبوب المبتكر تدريبًا آمنًا و قويًا في المحاكاة قبل نشر العالم الحقيقي، بل يُحسّن أيضًا كفاءة جمع البيانات بشكل كبير. يُمكن أن يُوسع RialTo تعلم الروبوت بشكل كبير و يُمكن الروبوتات من التكيف مع سيناريوهات العالم الحقيقي المُعقدة بشكل أكثر فعالية.”
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي