طريقة أسرع وأفضل لتدريب الروبوتات متعددة الأغراض
بوابة الذكاء الاصطناعي - وحدة المتابعة
عادةً ما يجمع المهندسون بيانات خاصة بروبوت ومهمة معينة، يستخدمونها لتدريب الروبوت في بيئة مُتحكمة. ومع ذلك، فإن جمع هذه البيانات مكلف ويستغرق وقتًا طويلًا، ومن المرجح أن يكافح الروبوت للتكيف مع البيئات أو المهام التي لم يرها من قبل.
لتدريب روبوتات متعددة الأغراض بشكل أفضل، طور باحثون في معهد ماساتشوستس للتكنولوجيا تقنية متعددة الاستخدامات تجمع كمية هائلة من البيانات غير المتجانسة من العديد من المصادر في نظام واحد يمكنه تعليم أي روبوت مجموعة واسعة من المهام.
تتضمن طريقتهم محاذاة البيانات من مجالات متنوعة، مثل المحاكاة والروبوتات الحقيقية، وأنماط متعددة، بما في ذلك أجهزة استشعار الرؤية ومُشفرات موضع الذراع الروبوتية، في “لغة” مشتركة يمكن لنموذج الذكاء الاصطناعي التوليدي معالجتها.
من خلال الجمع بين هذه الكمية الهائلة من البيانات، يمكن استخدام هذا النهج لتدريب الروبوت على أداء مجموعة متنوعة من المهام دون الحاجة إلى البدء في تدريبه من الصفر في كل مرة.
قد تكون هذه الطريقة أسرع وأقل تكلفة من التقنيات التقليدية لأنها تتطلب بيانات أقل بكثير خاصة بالمهمة. بالإضافة إلى ذلك، فقد تفوقت على التدريب من الصفر بأكثر من 20 بالمائة في تجارب المحاكاة والعالم الحقيقي.
يقول ليروي وانغ، طالب دراسات عليا في الهندسة الكهربائية وعلوم الكمبيوتر (EECS) والمؤلف الرئيسي لورقة بحثية حول هذه التقنية: “في مجال الروبوتات، غالبًا ما يدعي الناس أننا لا نملك بيانات تدريبية كافية. لكن من وجهة نظري، تكمن مشكلة كبيرة أخرى في أن البيانات تأتي من العديد من المجالات والأنماط وأجهزة الروبوت المختلفة. يُظهر عملنا كيف يمكنك تدريب روبوت باستخدامها جميعًا معًا”.
يشمل مؤلفو وانغ المشاركون زميل الدراسات العليا في EECS جيالينغ تشاو؛ شينلي تشين، عالم أبحاث في ميتا؛ والمؤلف الرئيسي كايمينغ هي، أستاذ مشارك في EECS وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL). سيتم تقديم البحث في مؤتمر أنظمة معالجة المعلومات العصبية.
مستوحاة من نماذج اللغات الكبيرة
تستقبل “السياسة” الروبوتية ملاحظات من أجهزة الاستشعار، مثل صور الكاميرا أو القياسات الذاتية التي تتبع سرعة وموضع ذراع روبوتية، ثم تخبر الروبوت كيف وأين يتحرك.
عادةً ما يتم تدريب السياسات باستخدام تقليد التعلم، مما يعني أن الإنسان يُظهر الإجراءات أو يتحكم عن بُعد في روبوت لإنشاء بيانات يتم تغذيتها في نموذج ذكاء اصطناعي يتعلم السياسة. نظرًا لأن هذه الطريقة تستخدم كمية صغيرة من البيانات الخاصة بالمهمة، غالبًا ما تفشل الروبوتات عندما تتغير بيئتها أو مهمتها.
لتطوير نهج أفضل، استلهم وانغ وزملاؤه من نماذج اللغات الكبيرة مثل GPT-4.
يتم تدريب هذه النماذج مسبقًا باستخدام كمية هائلة من بيانات اللغة المتنوعة، ثم يتم ضبطها بدقة من خلال تغذيتها بكمية صغيرة من البيانات الخاصة بالمهمة. يساعد التدريب المسبق على الكثير من البيانات النماذج على التكيف لأداء جيد في مجموعة متنوعة من المهام.
يقول: “في مجال اللغة، جميع البيانات عبارة عن جمل فقط. في مجال الروبوتات، بالنظر إلى كل التباين في البيانات، إذا كنت تريد التدريب المسبق بطريقة مماثلة، نحتاج إلى بنية مختلفة”.
تأخذ بيانات الروبوت أشكالًا عديدة، من صور الكاميرا إلى تعليمات اللغة إلى خرائط العمق. في الوقت نفسه، كل روبوت فريد ميكانيكياً، مع عدد واتجاه مختلفين من الأذرع، والكماشات، وأجهزة الاستشعار. بالإضافة إلى ذلك، تختلف البيئات التي يتم جمع البيانات فيها على نطاق واسع.
طور باحثو معهد ماساتشوستس للتكنولوجيا بنية جديدة تسمى المحولات المدربة مسبقًا غير المتجانسة (HPT) توحد البيانات من هذه الأنماط والمجالات المتنوعة.
وضعوا نموذج تعلم آلي يُعرف باسم المحول في وسط بنياتهم، والذي يُعالج مدخلات الرؤية والاستقبال الذاتي. المحول هو نفس نوع النموذج الذي يُشكل العمود الفقري لنماذج اللغات الكبيرة.
يُحاذي الباحثون البيانات من الرؤية والاستقبال الذاتي في نفس نوع الإدخال، الذي يُسمى الرمز، والذي يمكن للمحول معالجته. يتم تمثيل كل إدخال بنفس العدد الثابت من الرموز.
ثم يُرسم المحول جميع المدخلات في مساحة مشتركة، وينمو ليصبح نموذجًا ضخمًا مدربًا مسبقًا أثناء معالجته وتعلم المزيد من البيانات. كلما أصبح المحول أكبر، كلما كان أداءه أفضل.
لا يحتاج المستخدم إلا إلى تغذية HPT بكمية صغيرة من البيانات حول تصميم الروبوت، وإعداده، والمهمة التي يريد أن يؤديها. ثم ينقل HPT المعرفة التي اكتسبها المحول أثناء التدريب المسبق لتعلم المهمة الجديدة.
تمكين الحركات البارعة
كان أحد أكبر تحديات تطوير HPT هو بناء مجموعة البيانات الضخمة لتدريب المحول مسبقًا، والتي تضمنت 52 مجموعة بيانات تضم أكثر من 200000 مسار روبوت في أربع فئات، بما في ذلك مقاطع فيديو عرض الإنسان والمحاكاة.
احتاج الباحثون أيضًا إلى تطوير طريقة فعالة لتحويل إشارات الاستقبال الذاتي الخام من مجموعة من أجهزة الاستشعار إلى بيانات يمكن للمحول التعامل معها.
يُوضح وانغ: “الاستقبال الذاتي هو المفتاح لتمكين الكثير من الحركات البارعة. نظرًا لأن عدد الرموز في بنيتنا هو نفسه دائمًا، فإننا نضع نفس الأهمية على الاستقبال الذاتي والرؤية”.
عندما اختبروا HPT، حسّن أداء الروبوت بأكثر من 20 بالمائة في مهام المحاكاة والعالم الحقيقي، مقارنة بالتدريب من الصفر في كل مرة. حتى عندما كانت المهمة مختلفة جدًا عن بيانات التدريب المسبق، لا يزال HPT يحسن الأداء.
يقول ديفيد هيلد، الأستاذ المشارك في معهد روبوتات جامعة كارنيجي ميلون، الذي لم يشارك في هذا العمل: “تقدم هذه الورقة نهجًا جديدًا لتدريب سياسة واحدة عبر تجسيدات روبوت متعددة. هذا يُمكّن التدريب عبر مجموعات بيانات متنوعة، مما يُمكّن أساليب تعلم الروبوت من زيادة حجم مجموعات البيانات التي يمكنها التدريب عليها بشكل كبير. كما يسمح للنموذج بالتكيف بسرعة مع تجسيدات روبوت جديدة، وهو أمر مهم نظرًا لأن تصاميم الروبوت الجديدة تُنتج باستمرار”.
في المستقبل، يريد الباحثون دراسة كيف يمكن لتنوع البيانات أن يعزز أداء HPT. كما يريدون تحسين HPT حتى يتمكن من معالجة البيانات غير المسمى مثل GPT-4 ونماذج اللغات الكبيرة الأخرى.
يقول: “حلمنا هو امتلاك دماغ روبوت عالمي يمكنك تنزيله واستخدامه لروبوتك دون أي تدريب على الإطلاق. بينما نحن في المراحل الأولى فقط، سنواصل الضغط بقوة ونأمل أن يؤدي التوسع إلى إحداث طفرة في سياسات الروبوت، كما حدث مع نماذج اللغات الكبيرة”.
تم تمويل هذا العمل، جزئيًا، من قبل مبادرة أمازون للتكنولوجيا الكبرى في بوسطن ومعهد تويوتا للبحوث.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي