طريقة جديدة تستخدم ردود الفعل المجتمعة لتدريب الروبوتات
منصة الذكاء الاصطناعي ـ متابعات
يستخدم الباحثون في تدريب وكيل الذكاء الاصطناعي على مهمة جديدة، مثل فتح خزانة المطبخ، عادةً تعلم الإرتقاء – وهو عملية محاولة وخطأ حيث يتلقى الوكيل مكافآت عند اتخاذ إجراءات تقربه من الهدف.
في العديد من الحالات، يجب على خبير بشري تصميم وظيفة المكافأة بعناية، وهي آلية تحفز الوكيل لاستكشاف. يجب على الخبير التحديث التكراري لوظيفة المكافأة تلك بينما يستكشف الوكيل ويجرب إجراءات مختلفة. يمكن أن يكون هذا مكلفًا من حيث الوقت وغير فعال وصعب التوسع، خاصةً عندما يكون المهمة معقدة وتتضمن العديد من الخطوات.
وقد طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة هارفارد وجامعة واشنطن نهجًا جديدًا لتعلم الإرتقاء لا يعتمد على وظيفة المكافأة المصممة بخبرة. بدلاً من ذلك، يستفيدون من ردود الفعل التي تجمع من مجموعة واسعة من المستخدمين غير الخبراء لتوجيه الوكيل أثناء تعلمه لتحقيق هدفه.
بينما تحاول بعض الأساليب الأخرى أيضًا الاستفادة من ردود الفعل غير الخبرية، فإن هذا النهج الجديد يتيح لوكيل الذكاء الاصطناعي أن يتعلم بشكل أسرع، على الرغم من أن البيانات التي تم جمعها من المستخدمين غير الخبراء غالبًا ما تكون مليئة بالأخطاء. قد تتسبب هذه البيانات الضوضائية في فشل الأساليب الأخرى.
بالإضافة إلى ذلك، يتيح هذا النهج الجديد جمع ردود الفعل بشكل غير متزامن، بحيث يمكن للمستخدمين غير الخبراء في جميع أنحاء العالم المساهمة في تعليم الوكيل.
يقول بولكيت أجراوال، أستاذ مساعد في قسم هندسة الكهرباء والهندسة الحاسوبية في MIT والذي يقود مختبر الذكاء الاصطناعي غير المحتمل في مختبر علوم الكمبيوتر والذكما لبثت وحدة الذكاء الاصطناعي أن تدخل عالم الصحافة بإحترافية عالية، حيث تقدم لكم منصة الذكاء الاصطناعي ـ متابعات العنوان التالي: “طريقة جديدة تستخدم ردود الفعل المجتمعة لتدريب الروبوتات”، وفي نهاية الخبر ستجدون خطًا قصيرًا يشير إلى أن هذا المحتوى تم بمعرفة وحدة الذكاء الاصطناعي.
تعتمد الباحثون من معهد ماساتشوستس للتكنولوجيا (MIT) وجامعة هارفارد وجامعة واشنطن على نهج جديد في تعلم الإرتقاء يستخدم ردود الفعل المجتمعة، التي تم جمعها من مستخدمين غير خبراء، لتوجيه وكيل الذكاء الاصطناعي أثناء تعلمه لتحقيق أهدافه.
في العادة، يتطلب تدريب وكيل الذكاء الاصطناعي على مهمة جديدة، مثل فتح خزانة المطبخ، تصميم وظيفة المكافأة بعناية من قبل خبير بشري، وتحديثها تدريجيًا بمرور الوقت. ومع ذلك، يعد هذا النهج مكلفًا من حيث الوقت وغير فعال للمهام المعقدة التي تتطلب العديد من الخطوات.
من خلال هذا النهج الجديد، يمكن لوكيل الذكاء الاصطناعي أن يتعلم بشكل أسرع، حتى في ظل وجود أخطاء في بيانات ردود الفعل المجتمعة. وبالإضافة إلى ذلك، يتيح هذا النهج جمع ردود الفعل بشكل غير متزامن، مما يسمح للمستخدمين غير الخبراء في جميع أنحاء العالم بالمساهمة في تدريب الوكيل.
ويعلق بولكيت أجراوال، أستاذ مساعد في قسم هندسة الكهرباء والهندسة الحاسوبية في MIT وقائد مختبر الذكاء الاصطناعي غير المحتمل في مختبر علوم الكمبيوتر والذكاء الاصطناعي، على هذا النهج الجديد قائلاً: “يعد تصميم وظيفة المكافأة واحدًا من أصعب وأكثر العمليات المكلفة في تصميم وكيل روبوتي اليوم. يقتصر تصميم وظيفة المكافأة حالياً على الباحثين المتخصصين، وهو نمط لا يمكن توسيعه إذا أردنا تعليم روبوتاتنا مهامًا مختلفة.