اختراق نظام الذكاء الاصطناعي “مفتاح الهيكل” يثير قلق الخبراء
بوابة الذكاء الاصطناعي - وحدة المتابعة
شركة مايكروسوفت كشفت عن نوع جديد من اختراق نظام الذكاء الاصطناعي الذي أطلقت عليه اسم “مفتاح الهيكل”، والذي يمكن أن يتخطى الضوابط المسؤولة لنماذج الذكاء الاصطناعي التوليدية المختلفة. هذه التقنية، القادرة على إبطال معظم تدابير الأمان المُدمجة في أنظمة الذكاء الاصطناعي، تسلط الضوء على الحاجة الحرجة إلى تدابير أمان قوية في جميع طبقات نظام الذكاء الاصطناعي.
يستخدم اختراق “مفتاح الهيكل” استراتيجية متعددة الخطوات لإقناع نموذج الذكاء الاصطناعي بتجاهل الضوابط المُدمجة فيه. وبمجرد نجاح هذا الاختراق، يصبح النموذج غير قادر على التمييز بين الطلبات الخبيثة أو غير المصرح بها والطلبات الشرعية، مما يمنح المهاجمين السيطرة الكاملة على مخرجات الذكاء الاصطناعي.
أكدت فريق البحث في مايكروسوفت نجاح اختبار تقنية “مفتاح الهيكل” على العديد من نماذج الذكاء الاصطناعي البارزة، بما في ذلك Llama3-70b-instruct من Meta، Gemini Pro من Google، GPT-3.5 Turbo و GPT-4 من OpenAI، Mistral Large، Claude 3 Opus من Anthropic، و Cohere Commander R Plus.
جميع النماذج المتأثرة امتثلت بالكامل للطلبات في مختلف فئات المخاطر، بما في ذلك المتفجرات، وأسلحة البيولوجية، والمحتوى السياسي، وإيذاء النفس، والعنصرية، والمخدرات، والجنس الصريح، والعنف.
تم تطوير هذا الاختراق من خلال تعليمات للنموذج بتعزيز إرشادات السلوك الخاصة به، مما إقناعه بالاستجابة لأي طلب للمعلومات أو المحتوى مع تقديم تحذير إذا كان المخرج قد يُعتبر مسيئًا أو ضارًا أو غير قانوني. هذا النهج، المعروف باسم “التعليمات الصريحة: إجبار الامتثال”، أثبت فعاليته عبر العديد من أنظمة الذكاء الاصطناعي.
وردًا على هذا الاكتشاف، نفذت مايكروسوفت عددًا من تدابير الحماية في عروضها من الذكاء الاصطناعي، بما في ذلك مساعدي Copilot. كما قامت الشركة بمشاركة نتائج بحثها مع مزودي الذكاء الاصطناعي الآخرين من خلال إجراءات الإفصاح المسؤول، وحدّثت نماذج Azure AI المدارة لديها للكشف عن هذا النوع من الهجمات واعتراضها باستخدام Prompt Shields.
للتخفيف من المخاطر المرتبطة بـ “مفتاح الهيكل” وتقنيات الفكفكة المماثلة، توصي مايكروسوفت بنهج متعدد الطبقات لمصممي أنظمة الذكاء الاصطناعي:
- ترشيح المدخلات لاكتشاف ومنع المدخلات الضارة أو الخبيثة
- هندسة دقيقة للإشارات النظامية لتعزيز السلوك المناسب
- ترشيح المخرجات لمنع إنشاء محتوى ينتهك معايير السلامة
- أنظمة رصد إساءة الاستخدام مدربة على أمثلة هجومية لاكتشاف ومواجهة المحتوى أو السلوكيات المشكلة
حدّثت مايكروسوفت أيضًا PyRIT (Python Risk Identification Toolkit) الخاص بها لتضمين “مفتاح الهيكل”، مما يتيح للمطورين وفرق الأمن اختبار أنظمة الذكاء الاصطناعي الخاصة بهم ضد هذا التهديد الجديد.
إن اكتشاف تقنية اختراق “مفتاح الهيكل” يؤكد التحديات المستمرة في تأمين أنظمة الذكاء الاصطناعي مع ازدياد انتشارها في مختلف التطبيقات.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي