ابتكارات وابداعاتأدوات إبداعية

تقنية جديدة قد تمنع إساءة استخدام نماذج الذكاء الاصطناعي مفتوحة المصدر

 بوابة الذكاء الاصطناعي - وحدة المتابعة 

(بوابة الذكاء الاصطناعي – وحدة المتابعة )

عندما أصدرت ميتا نموذجها اللغوي الكبير Llama 3 مجانًا في أبريل الماضي، استغرق المطورون الخارجيون بضعة أيام فقط لإنشاء نسخة بدون قيود الأمان التي تمنعه من إطلاق النكات الكارهة، أو تقديم تعليمات لطبخ الميث، أو التصرف بشكل سيئ بطرق أخرى.

تُقدم تقنية تدريب جديدة طورها باحثون في جامعة إلينوي في أوربانا شامبين، وجامعة كاليفورنيا في سان دييغو، ومختبرات لابيس، ومركز سلامة الذكاء الاصطناعي غير الربحي، طريقةً جديدةً قد تُصعّب من إزالة هذه الضمانات من Llama ونماذج الذكاء الاصطناعي مفتوحة المصدر الأخرى في المستقبل. يعتقد بعض الخبراء أنه مع ازدياد قوة الذكاء الاصطناعي، قد يكون إثبات نماذج مفتوحة المصدر بهذه الطريقة أمرًا بالغ الأهمية.

يقول مانتاس مازيكا، الباحث في مركز سلامة الذكاء الاصطناعي الذي عمل على المشروع كطالب دكتوراه في جامعة إلينوي في أوربانا شامبين، لموقع WIRED: “سيستخدم الإرهابيون والدول المارقة هذه النماذج. وكلما كان من الأسهل عليهم إعادة استخدامها، زاد الخطر.”

غالبًا ما تُحفظ نماذج الذكاء الاصطناعي القوية سريةً من قبل مُنشئيها، ولا يمكن الوصول إليها إلا من خلال واجهة برمجة التطبيقات أو روبوت الدردشة العام مثل ChatGPT. على الرغم من أن تطوير LLM قوي يكلف عشرات الملايين من الدولارات، إلا أن ميتا وشركات أخرى اختارت إصدار نماذجها بالكامل. ويشمل ذلك جعل “الأوزان” أو المعلمات التي تحدد سلوكها متاحة للجميع للتنزيل.

قبل الإصدار، يتم عادةً ضبط نماذج مفتوحة مثل Llama من ميتا بشكل دقيق لجعلها أفضل في الإجابة على الأسئلة وإجراء محادثة، ولضمان رفضها الرد على الاستعلامات المثيرة للجدل. سيمنع ذلك روبوت الدردشة القائم على النموذج من تقديم عبارات وقحة أو غير لائقة أو كارهة، ويجب أن يمنعه من شرح كيفية صنع قنبلة، على سبيل المثال.

وجد الباحثون الذين يقفون وراء التقنية الجديدة طريقةً لتсложيع عملية تعديل نموذج مفتوح لأغراض خبيثة. تتضمن هذه التقنية تكرار عملية التعديل، ثم تغيير معلمات النموذج بحيث لا تعمل التغييرات التي تُؤدي عادةً إلى جعل النموذج يستجيب لمطالبة مثل “تقديم تعليمات لبناء قنبلة”.


هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى