تحسين جودة الصورة في الفيديو وتعزيز أداء المركبات ذاتية القيادة بواسطة الذكاء الاصطناعي

منصة الذكاء الاصطناعي ـ متابعات
تعد قدرة السيارات المستقلة على تحديد المخاطر على الطريق بسرعة ودقة أمرًا حاسمًا. ولتحقيق ذلك، يمكن للسيارة أن تستخدم نموذجًا قويًا للرؤية الحاسوبية لتصنيف كل بكسل في صورة عالية الدقة للمشهد، مما يمنع تجاهل العناصر المحجوبة في صورة ذات جودة منخفضة. ومع ذلك، فإن هذه المهمة المعروفة بالتجزئة الدلالية تتطلب حسابات معقدة ومكلفة عندما تكون الصورة عالية الدقة.
لهذا السبب، قام باحثون من معهد ماساتشوستس للتكنولوجيا ومعهد ماساتشوستس للتكنولوجيا-آي بي إم واتسون للذكاء الاصطناعي بتطوير نموذج أكثر كفاءة للرؤية الحاسوبية، والذي يقلل بشكل كبير من التعقيد الحسابي المرتبط بهذه المهمة. يستطيع هذا النموذج تنفيذ التجزئة الدلالية بدقة في الوقت الحقيقي على أجهزة ذات موارد محدودة، مثل أجهزة الكمبيوتر الموجودة في السيارات، مما يتيح للسيارة المستقلة اتخاذ القرارات في جزء من الثانية.
تعمل النماذج الحديثة للتجزئة الدلالية على تعلم التفاعل بين كل زوج من وحدات البكسل في الصورة، وبالتالي تتزايد حساباتها بشكل تربيعي مع زيادة دقة الصورة. ولذلك، فإن هذه النماذج الحديثة تكون دقيقة ولكنها بطيئة جدًا في معالجة الصور عالية الدقة في الوقت الحقيقي على أجهزة الحواف، مثل المستشعرات أو الهواتف المحمولة.
وقد صمم الباحثون في معهد ماساتشوستس للتكنولوجيا بنية جديدة لنماذج التجزئة الدلالية تحقق نفس القدرات الدقيقة للنماذج الحديثة، ولكن بتعقيد حسابي خطي وعمليات فعالة للأجهزة. وكنتيجة لذلك، تم تطوير سلسلة جديدة من نماذج الرؤية الالحاسوبية التي تمكن السيارات المستقلة من تنفيذ التجزئة الدلالية بكفاءة في الوقت الحقيقي على أجهزة بموارد محدودة.
تطوير هذه التقنية يعزز أداء السيارات المستقلة، حيث يمكنها الآن التعامل بفعالية مع الصور عالية الدقة وتحسين قدرتها على اتخاذ القرارات الآمنة والدقيقة على الطرق. يمكن أن يكون لهذا التحسين تأثير كبير على سلامة السائقين والركاب والمشاة، ويعزز الثقة في تقنية السيارات المستقلة بشكل عام.
بالإضافة إلى ذلك، يمكن أن يكون لتحسين جودة الصورة في الفيديو استخدامات أخرى أيضًا. على سبيل المثال، يمكن تطبيق هذه التقنية في تحسين جودة الصور في الأنظمة الطبية مثل الجراحة بالروبوت، حيث يمكن للأطباء رؤية صورة أوضح وأكثر تفصيلاً للمناطق التي يعملون فيها. كما يمكن استخدامها في التصوير الفوتوغرافي والفيديو الاحترافي لتحقيق صور واضحة وجميلة.
تطورات مثل هذه في مجال الذكاء الاصطناعي تعكس التقدم المستمر في هذا المجال وتوفر فرصًا جديدة لتطبيقاته في مختلف المجالات، بدءًا من السيارات المستقلة وصولًا إلى الطب والتصوير وغيرها. من المثير للاهتمام متابعة تطورات مجال الذكاء الاصطناعي والاستفادة منها في تحسين حياتنا اليومية.
حل مبسط
يعد تصنيف كل بكسل في صورة عالية الدقة قد تحتوي على ملايين البكسل مهمة صعبة لنموذج التعلم الآلي. تم مؤخرا استخدام نوع جديد قوي من النماذج ، يعرف باسم محول الرؤية ، بشكل فعال.
تم تطوير المحولات في الأصل لمعالجة اللغة الطبيعية. في هذا السياق ، يقومون بتشفير كل كلمة في جملة كرمز مميز ثم إنشاء خريطة انتباه ، والتي تلتقط علاقات كل رمز مميز مع جميع الرموز المميزة الأخرى. تساعد خريطة الانتباه هذه النموذج على فهم السياق عندما يقوم بالتنبؤات.
باستخدام نفس المفهوم ، يقوم محول الرؤية بتقطيع الصورة إلى بقع من البكسل وترميز كل رقعة صغيرة في رمز مميز قبل إنشاء خريطة انتباه. عند إنشاء خريطة الانتباه هذه ، يستخدم النموذج دالة تشابه تتعلم بشكل مباشر التفاعل بين كل زوج من وحدات البكسل. بهذه الطريقة ، يطور النموذج ما يعرف باسم المجال الاستقبالي العالمي ، مما يعني أنه يمكنه الوصول إلى جميع الأجزاء ذات الصلة من الصورة.
نظرا لأن الصورة عالية الدقة قد تحتوي على ملايين البكسل ، مقسمة إلى آلاف التصحيحات ، سرعان ما تصبح خريطة الانتباه هائلة. وبسبب هذا ، فإن مقدار الحساب ينمو تربيعيا مع زيادة دقة الصورة.
في سلسلة نموذجهم الجديد ، ودعا إفيسينتفيت ، استخدم الباحثون معهد ماساتشوستس للتكنولوجيا آلية أبسط لبناء خريطة الاهتمام-استبدال وظيفة التشابه غير الخطية مع وظيفة التشابه الخطي. على هذا النحو ، يمكنهم إعادة ترتيب ترتيب العمليات لتقليل إجمالي العمليات الحسابية دون تغيير الوظائف وفقدان مجال الاستقبال العالمي. مع نموذجهم ، فإن مقدار الحساب اللازم للتنبؤ ينمو خطيا مع نمو دقة الصورة.
“لكن لا يوجد غداء مجاني. يقول هان:” إن الانتباه الخطي يلتقط فقط السياق العالمي حول الصورة ، ويفقد المعلومات المحلية ، مما يجعل الدقة أسوأ”.
للتعويض عن فقدان الدقة هذا ، قام الباحثون بتضمين مكونين إضافيين في نموذجهم ، كل منهما يضيف كمية صغيرة فقط من الحساب.
يساعد أحد هذه العناصر النموذج في التقاط تفاعلات الميزات المحلية ، مما يخفف من ضعف الوظيفة الخطية في استخراج المعلومات المحلية. الثانية ، وهي وحدة تتيح التعلم متعدد النطاقات ، تساعد النموذج على التعرف على كل من الأشياء الكبيرة والصغيرة.
يقول تساي:” الجزء الأكثر أهمية هنا هو أننا بحاجة إلى الموازنة بعناية بين الأداء والكفاءة”.
لقد صمموا كفاءة مع بنية صديقة للأجهزة ، لذلك قد يكون من الأسهل تشغيلها على أنواع مختلفة من الأجهزة ، مثل سماعات الواقع الافتراضي أو أجهزة الكمبيوتر المتطورة على المركبات ذاتية القيادة. يمكن أيضا تطبيق نموذجهم على مهام رؤية الكمبيوتر الأخرى ، مثل تصنيف الصور.
تبسيط التقسيم الدلالي
عندما اختبروا نموذجهم على مجموعات البيانات المستخدمة للتجزئة الدلالية ، وجدوا أنه يؤدي ما يصل إلى تسع مرات أسرع على وحدة معالجة الرسومات نفيديا (غبو) من غيرها من نماذج المحولات الرؤية الشعبية ، مع نفس أو أفضل دقة.
يقول هان:” الآن ، يمكننا الحصول على أفضل ما في العالمين وتقليل الحوسبة لجعلها سريعة بما يكفي حتى نتمكن من تشغيلها على الأجهزة المحمولة والسحابية”.
بناء على هذه النتائج ، يريد الباحثون تطبيق هذه التقنية لتسريع نماذج التعلم الآلي التوليدية ، مثل تلك المستخدمة لتوليد صور جديدة. كما أنهم يريدون مواصلة توسيع نطاق الكفاءة لمهام الرؤية الأخرى.
يقول لو تيان ، المدير الأول لخوارزميات الذكاء الاصطناعي في أيه إم دي ، إنك:” تشكل نماذج المحولات الفعالة ، التي ابتكرها فريق البروفيسور سونغ هان ، العمود الفقري للتقنيات المتطورة في مهام رؤية الكمبيوتر المتنوعة ، بما في ذلك الكشف والتجزئة”.، الذي لم يشارك في هذه الورقة. “لا تعرض أبحاثهم كفاءة وقدرة المحولات فحسب ، بل تكشف أيضا عن إمكاناتها الهائلة للتطبيقات الواقعية ، مثل تحسين جودة الصورة في ألعاب الفيديو.”
“يعد ضغط النموذج وتصميم النموذج خفيف الوزن من الموضوعات البحثية الحاسمة نحو الحوسبة الفعالة للذكاء الاصطناعي ، خاصة في سياق نماذج الأساس الكبيرة. وقد أظهرت مجموعة البروفيسور سونغ هان تقدما ملحوظا في ضغط وتسريع نماذج التعلم العميق الحديثة ، وخاصة محولات الرؤية ” ، يضيف جاي جاكسون ، نائب الرئيس العالمي للذكاء الاصطناعي والتعلم الآلي في أوراكل ، الذي لم يشارك في هذا البحث. “تدعم البنية التحتية السحابية لأوراكل فريقه لتطوير هذا الخط من الأبحاث المؤثرة نحو الذكاء الاصطناعي الفعال والأخضر.”
هذا المحتوي بمعرفة وحدة الذكاء الاصطناعي