بوت وروبوتبرامج وتطبيقات

تقنية ذكاء اصطناعي تساعد في إيجاد الحركات المحددة في مقاطع الفيديو

 بوابة الذكاء الاصطناعي - وحدة المتابعة 

في عالم الإنترنت المليء بمقاطع الفيديو التعليمية التي يمكن أن تعلّم المشاهدين الفضوليين كل شيء بدءًا من طهي الفطائر المثالية وحتى إجراء إسعافات أولية إنقاذية، إلا أن تحديد متى ووين تحدث حركة معينة في فيديو طويل قد يكون مرهقًا.

لتبسيط هذه العملية، يحاول العلماء تعليم أجهزة الكمبيوتر تنفيذ هذه المهمة. والهدف المثالي هو أن يتمكن المستخدم من وصف الحركة التي يبحث عنها، وسيقوم نموذج الذكاء الاصطناعي بالقفز إلى موقعها في الفيديو.

ومع ذلك، يتطلب تدريب نماذج التعلم الآلي على القيام بهذه المهمة -المعروفة باسم “التأسيس المكاني والزمني”- كميات هائلة من بيانات الفيديو المكلفة والمرهقة بالتسمية اليدوية.

الآن، قدم باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) ومختبر IBM Watson AI في MIT نهجًا أكثر كفاءة، حيث قاموا بتدريب نموذج على تنفيذ هذه المهمة باستخدام مقاطع الفيديو وترجماتها التي تم إنشاؤها تلقائيًا فقط.

ويقوم الباحثون بتدريب النموذج على فهم مقطع الفيديو غير المؤشر عليه بطريقتين مختلفتين: من خلال النظر إلى التفاصيل الصغيرة لتحديد مواقع الأشياء (المعلومات المكانية)، والنظر إلى الصورة الأكبر لفهم متى تحدث الحركة (المعلومات الزمنية).

وبالمقارنة مع أساليب الذكاء الاصطناعي الأخرى، تحدد طريقتهم بدقة أكبر الحركات في مقاطع الفيديو الأطول التي تتضمن أنشطة متعددة. ومن المثير للاهتمام أنهم وجدوا أن التدريب المتزامن على المعلومات المكانية والزمنية يجعل النموذج أفضل في تحديد كل منهما بشكل فردي.

وبالإضافة إلى تبسيط عمليات التعلم عبر الإنترنت والتدريب الافتراضي، قد تكون هذه التقنية مفيدة أيضًا في مجال الرعاية الصحية من خلال العثور بسرعة على اللحظات الرئيسية في مقاطع فيديو الإجراءات التشخيصية، على سبيل المثال.

“لقد فكّكنا التحدي المتمثل في محاولة ترميز المعلومات المكانية والزمنية جميعًا في وقت واحد، وبدلاً من ذلك فكّرنا فيها وكأنها خبيران يعملان بمفردهما، وهذا يثبت أنه طريقة أكثر وضوحًا لترميز المعلومات. ونموذجنا الذي يجمع بين هذين الفرعين المنفصلين هو الأفضل أداءً،” يقول برايان تشين، الباحث الرئيسي في هذه الدراسة.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى