ميتا تكشف عن “مُولّي جين”: ثورة في عالم الفيديوهات المُولّدة بالذكاء الاصطناعي
بوابة الذكاء الاصطناعي - وحدة المتابعة

أعلنت شركة ميتا أخيراً عن نموذجها الجديد للذكاء الاصطناعي المُركّز على الوسائط المتعددة، والذي يحمل اسم “مُولّي جين” (Movie Gen). يمتاز هذا النموذج بقدرته على توليد مقاطع فيديو وصوت واقعية بشكل مُذهل. وقد شاركت الشركة العديد من المقاطع التجريبية التي تبلغ مدتها 10 ثوانٍ، والتي تُظهر إمكانيات “مُولّي جين” المذهلة، منها على سبيل المثال، مقطعٌ لفَرْس النهر الصغير وهو يسبح، مُثيرا بذلك دهشة المُشاهدين. وبالرغم من عدم توفر هذا النموذج للاستخدام العام حتى الآن، إلا أن إطلاقه يأتي بعد فترة وجيزة من فعاليات مؤتمر ميتا كونكت، والذي شهد الكشف عن أجهزة جديدة مُحسّنة، بالإضافة إلى الإصدار الأخير من نموذجها اللغوي الكبير “Llama 3.2”.
وليس مُجرد توليد مقاطع فيديو من نصوص مكتوبة هو ما يُميّز “مُولّي جين”، بل يتجاوز ذلك إلى إمكانية إجراء تعديلات مُحدّدة على مقاطع فيديو موجودة، مثل إضافة جسم ما إلى يد شخص ما، أو تغيير مظهر سطح ما. ففي أحد الأمثلة التي قدّمتها ميتا، تم تحويل امرأة ترتدي نظارات الواقع الافتراضي إلى امرأة ترتدي منظاراً من طراز steampunk.
كما يمكن لـ “مُولّي جين” توليد مقاطع صوتية مُصاحبة للفيديوهات. ففي المقاطع التجريبية، نجد رجلاً افتراضيًا يقف بالقرب من شلال، مُصاحبًا بأصوات تدفّق المياه، وأنغام أوركسترا مُفعمة بالأمل، بالإضافة إلى صوت محرّك سيارة رياضية، وصوت إطاراتها وهي تنزلق على المضمار، وأخيرًا صوت أفعى تنزلق على أرض الغابة، مُصاحبًا بأصوات مُشوقة.
وقد كشفت ميتا عن بعض التفاصيل الإضافية حول “مُولّي جين” في ورقة بحثية نُشرت يوم الجمعة. يتكون نموذج “مُولّي جين” للفيديو من 30 مليار معلمة، بينما يتكون نموذج الصوت من 13 مليار معلمة. (يُشير عدد معلمات النموذج إلى قدراته تقريباً؛ على سبيل المثال، يحتوي أكبر مُتغيّر من Llama 3.1 على 405 مليار معلمة). ويمكن لـ “مُولّي جين” إنتاج فيديوهات عالية الدقة تصل مدتها إلى 16 ثانية، وتدّعي ميتا أنّه يتفوّق على النماذج المُنافسة من حيث جودة الفيديو الشاملة.
وفي وقت سابق من هذا العام، قدّم مارك زوكربيرج، الرئيس التنفيذي لشركة ميتا، ميزة “تخيّلني” (Imagine Me) من ميتا للذكاء الاصطناعي، والتي تسمح للمستخدمين بتحميل صورة لأنفسهم ودمجها في سيناريوهات مُتعددة، وقد نشر زوكربيرج صورة له مُولّدة بالذكاء الاصطناعي وهو مغمور في سلاسل ذهبية على منصة Threads. ويمكن لنموذج “مُولّي جين” إنتاج فيديو مُشابه، كأنه نسخة مُطوّرة من تطبيق ElfYourself.
ولكن، ما هي البيانات التي تم تدريب “مُولّي جين” عليها؟ لم تُوضح منشورات ميتا هذه التفاصيل بشكل واضح، مكتفية بالقول: “لقد درّبنا هذه النماذج على مجموعة من مجموعات البيانات المُرخصة والمتاحة للجمهور”. وتظلّ مصادر بيانات التدريب وما هو عادلٌ استخراجه من الويب مسألةً مُثيرة للجدل بالنسبة لأدوات الذكاء الاصطناعي التوليدية، ونادراً ما تكون معلومات النصوص أو الفيديوهات أو مقاطع الصوت المُستخدمة لإنشاء أي من النماذج الرئيسية مُعروفة للجمهور.
من المُثير للاهتمام معرفة المدة التي ستستغرقها ميتا لجعل “مُولّي جين” متاحاً على نطاق واسع. وتشير مدوّنة الإعلان بشكل غامض إلى “إصدار مُحتمل في المُستقبل”. وللمُقارنة، أعلنت شركة OpenAI عن نموذج الفيديو الخاص بها بالذكاء الاصطناعي، والذي يُسمى Sora، في وقت سابق من هذا العام، ولم تُطرحه للجمهور بعد، ولم تُشارك أي تاريخ مُحتمل للإصدار.
وبالنظر إلى تاريخ ميتا كشركة وسائط اجتماعية، فمن المُحتمل أن تظهر أدوات مُدارة بواسطة “مُولّي جين” في النهاية داخل فيسبوك وإنستغرام وواتساب. وفي سبتمبر، شاركت شركة جوجل المُنافسة خططها لجعل جوانب من نموذج الفيديو الخاص بها، Veo، مُتاحة للمُبدعين داخل YouTube Shorts في وقت ما من العام المُقبل.
وبينما لا تزال شركات التكنولوجيا الكبرى تُؤجّل إطلاق نماذج الفيديو بالكامل للجمهور، يمكنك تجربة أدوات فيديو الذكاء الاصطناعي من شركات ناشئة صغيرة، مثل Runway و Pika.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي