الواقع الافتراضي الساطع: كيف يحول نموذج الانتشار المضبوط خصائص المواد في الصور
بوابة الذكاء الاصطناعي - وحدة المتابعة

قد يكون الباحثون في معهد ماساتشوستس للتكنولوجيا (MIT) وشركة غوغل قد أجروا حقاً سحراً رقمياً – على شكل نموذج انتشار قادر على تغيير خصائص المواد للكائنات في الصور.
تحت اسم “alchemist”، يتيح هذا النظام للمستخدمين تعديل أربعة خصائص لكل من الصور الحقيقية والصور المولدة بواسطة الذكاء الاصطناعي: الخشونة، اللمعان، الألبيدو (اللون الأساسي للكائن) والشفافية. بصفته نموذج انتشار من صورة إلى صورة، يمكن للمستخدم إدخال أي صورة ثم ضبط كل خاصية في نطاق متصل من -1 إلى 1 لإنشاء رؤية جديدة. قد تمتد هذه القدرات على تحرير الصور إلى تحسين النماذج في ألعاب الفيديو، وتوسيع إمكانات الذكاء الاصطناعي في المؤثرات البصرية، وإثراء بيانات تدريب الروبوتات.
يبدأ السحر وراء Alchemist بنموذج انتشار إزالة الضوضاء: في الممارسة العملية، استخدم الباحثون Stable Diffusion 1.5، وهو نموذج من النص إلى الصورة مشهور بنتائجه الواقعية والقدرات التحريرية. بنى العمل السابق على النموذج الشهير لتمكين المستخدمين من إجراء تغييرات على مستوى أعلى، مثل استبدال الكائنات أو تغيير عمق الصور. في المقابل، تطبق طريقة CSAIL وGoogle Research هذا النموذج للتركيز على الخصائص المنخفضة المستوى، مع مراجعة التفاصيل الدقيقة لخصائص مواد الكائن بواسطة واجهة مبتكرة تعتمد على شريط التحكم والتي تتفوق على نظيراتها.
بينما كانت أنظمة الانتشار السابقة قادرة على إخراج أرنب من قبعة بشكل استعاري، يمكن لـ Alchemist تحويل نفس الحيوان ليبدو شفاف. يمكن للنظام أيضًا جعل البطة المطاطية تبدو معدنية، وإزالة اللون الذهبي من سمكة ذهبية، وتلميع حذاء قديم. تتشابه برامج مثل Photoshop في هذه القدرات، ولكن هذا النموذج يمكن أن يغير خصائص المواد بطريقة أكثر بساطة. على سبيل المثال، تتطلب تعديل المظهر المعدني لصورة عدة خطوات في التطبيق المستخدم على نطاق واسع.
“عندما تنظر إلى صورة قمت بإنشائها، غالبًا ما لا يكون النتيجة هي بالضبط ما كان في ذهنك”، كما يقول بريفول شارما، طالب دكتوراه في هندسة الكهرباء وعلوم الكمبيوتر بمعهد ماساتشوستس للتكنولوجيا (MIT) والمنتسب إلى CSAIL، والمؤلف الرئيسي لورقة جديدة تصف العمل. “تريد السيطرة على الصورة أثناء تحريرها، ولكن عناصر التحكم الحالية في برامج تحرير الصور لا تستطيع تغيير المواد. مع Alchemist، نستفيد من الواقعية الفوتوغرافية لمخرجات نماذج النص إلى الصورة ونقدم شريط تحكم يسمح لنا بتعديل خاصية محددة بعد توفير الصورة الأصلية”.
تحكم دقيق
“لقد مَكَّنت نماذج التوليد من النص إلى الصورة المستخدمين العاديين من إنشاء صور بنفس سهولة كتابة جملة. ومع ذلك، فإن السيطرة على هذه النماذج قد تكون تحدياً”، كما يقول أستاذ مساعد في جامعة كارنيجي ميلون Jun-Yan Zhu، الذي لم يشارك في الورقة. “بينما يُعد إنشاء إناء أمرًا بسيطًا، فإن توليف إناء مع خصائص مادية محددة مثل الشفافية والخشونة يتطلب من المستخدمين قضاء ساعات في محاولة صياغات نصية مختلفة ونماذج عشوائية. قد يكون هذا مُحبطًا، خاصةً بالنسبة للمستخدمين المحترفين الذين يتطلبون الدقة في أعمالهم. Alchemist يقدم حلاً عملياً لهذا التحدي من خلال تمكين التحكم الدقيق في مواد صورة مُدخلة مع الاستفادة من المعارف المستقاة من نماذج الانتشار واسعة النطاق، مما يُلهم الأعمال المستقبلية لدمج النماذج التوليدية بسلاسة في واجهات البرامج المستخدمة شائعة الاستخدام لإنشاء المحتوى”.
قد تساعد قدرات تصميم Alchemist في تعديل مظهر النماذج المختلفة في ألعاب الفيديو. قد يساعد تطبيق نموذج الانتشار هذا في هذا المجال في تسريع عملية التصميم للمبدعين، مع تحسين النسيجات لملاءمة لعب مستوى معين.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي