بوت وروبوتفعاليات ومتابعات

تعزيز أوبن إيه آي لسلامة الذكاء الاصطناعي عبر أساليب جديدة لاختبار المتانة

بوابة الذكاء الاصطناعي - وحدة المتابعة 

تُعدّ عملية “اختبار المتانة” (Red Teaming) جزءًا بالغ الأهمية في جهود أوبن إيه آي لضمان سلامة أنظمة الذكاء الاصطناعي. وتعتمد هذه العملية على منهجية منظمة تجمع بين خبراء بشريين ونظم ذكاء اصطناعي لاكتشاف المخاطر المحتملة وثغرات الأمان في النظم الجديدة.

تاريخيًا، اعتمدت أوبن إيه آي بشكل أساسي على الاختبارات اليدوية، حيث يقوم الأفراد بالبحث عن نقاط الضعف. وقد استُخدم هذا الأسلوب بشكل ملحوظ خلال اختبار نموذج توليد الصور “دالي 2” في أوائل عام 2022، حيث تم دعوة خبراء خارجيين للكشف عن المخاطر المحتملة. ومنذ ذلك الحين، وسّعت أوبن إيه آي نطاق منهجياتها، مُدمجةً أساليب آلية ومُختلطة لتقييم المخاطر بشكل أكثر شمولاً.

وذكرت أوبن إيه آي: “نحن متفائلون بإمكانية استخدام ذكاء اصطناعي أكثر قوة لتوسيع نطاق اكتشاف أخطاء النماذج”. ويستند هذا التفاؤل إلى فكرة أن العمليات الآلية يمكن أن تساعد في تقييم النماذج وتدريبها لتصبح أكثر أمانًا من خلال التعرف على الأنماط والأخطاء على نطاق أوسع.

وفي أحدث جهودها للتطوير، تُشارك أوبن إيه آي وثيقتين هامتين حول اختبار المتانة: ورقة بيضاء تُفصّل استراتيجيات المشاركة الخارجية، ودراسة بحثية تُقدّم طريقة جديدة لاختبار المتانة الآلي. تهدف هذه المساهمات إلى تعزيز عملية ونتائج اختبار المتانة، مما يؤدي في النهاية إلى عمليات تنفيذ أكثر أمانًا ومسؤولية للذكاء الاصطناعي.

مع استمرار تطور الذكاء الاصطناعي، يُعدّ فهم تجارب المستخدم وتحديد المخاطر مثل إساءة الاستخدام أمرًا بالغ الأهمية للباحثين والمطورين. يوفر اختبار المتانة طريقة استباقية لتقييم هذه المخاطر، خاصةً عند استكماله برؤى من مجموعة من الخبراء الخارجيين المستقلين. لا يساعد هذا النهج فقط في وضع معايير مرجعية، بل يُسهّل أيضًا تحسين تقييمات السلامة بمرور الوقت.

اللمسة البشرية

شاركت أوبن إيه آي أربع خطوات أساسية في ورقتها البيضاء، “نهج أوبن إيه آي لاختبار المتانة الخارجي لنماذج وأنظمة الذكاء الاصطناعي”، لتصميم حملات اختبار متانة فعالة:

  • تشكيل فرق اختبار المتانة: يعتمد اختيار أعضاء الفريق على أهداف الحملة. غالبًا ما يشمل ذلك أفرادًا يتمتعون بوجهات نظر متنوعة، مثل الخبرة في العلوم الطبيعية، وأمن الإنترنت، والسياسة الإقليمية، مما يضمن تغطية التقييمات للمجالات اللازمة.
  • الوصول إلى إصدارات النموذج: يمكن أن يؤثر توضيح إصدارات النموذج التي سيصل إليها فريق اختبار المتانة على النتائج. قد تكشف النماذج في مراحلها المبكرة عن مخاطر متأصلة، بينما يمكن أن تساعد الإصدارات الأكثر تطوراً في تحديد الثغرات في تدابير السلامة المخطط لها.
  • التوجيه والتوثيق: تعتمد التفاعلات الفعالة خلال الحملات على تعليمات واضحة، وواجهات مناسبة، ووثائق منظمة. يشمل ذلك وصف النماذج، وسلامة الحماية الحالية، وواجهات الاختبار، وإرشادات لتسجيل النتائج.
  • تركيب البيانات وتقييمها: بعد الحملة، يتم تقييم البيانات لتحديد ما إذا كانت الأمثلة تتوافق مع السياسات الحالية أو تتطلب تعديلات سلوكية جديدة. ثم تُستخدم البيانات المُقيّمة لإجراء تقييمات قابلة للتكرار للتحديثات المستقبلية.

شمل تطبيق حديث لهذه المنهجية إعداد عائلة نماذج أوبن إيه آي “o1” للاستخدام العام – لاختبار مقاومتها لإساءة الاستخدام المحتملة وتقييم تطبيقها عبر مختلف المجالات مثل التخطيط لهجمات العالم الحقيقي، والعلوم الطبيعية، وبحث الذكاء الاصطناعي.

اختبار المتانة الآلي

يسعى اختبار المتانة الآلي إلى تحديد الحالات التي قد يفشل فيها الذكاء الاصطناعي، خاصةً فيما يتعلق بمسائل السلامة. تتميز هذه الطريقة بقدرتها على التوسع، حيث تُولّد العديد من أمثلة الأخطاء المحتملة بسرعة. ومع ذلك، عانت الأساليب الآلية التقليدية من صعوبة في إنتاج استراتيجيات هجوم متنوعة وناجحة.

يُقدّم بحث أوبن إيه آي “اختبار المتانة المتنوع والفعال مع المكافآت المُولّدة آليًا وتعلم التعزيز متعدد الخطوات”، وهي طريقة تُشجع على زيادة التنوع في استراتيجيات الهجوم مع الحفاظ على الفعالية.

تتضمن هذه الطريقة استخدام الذكاء الاصطناعي لتوليد سيناريوهات مختلفة، مثل النصائح غير القانونية، وتدريب نماذج اختبار المتانة لتقييم هذه السيناريوهات بشكل نقدي. تكافئ هذه العملية التنوع والفعالية، مما يعزز تقييمات السلامة الأكثر تنوعًا وشمولاً.

على الرغم من فوائد اختبار المتانة، إلا أنه له قيود. فهو يلتقط المخاطر في نقطة زمنية محددة، والتي قد تتطور مع تطور نماذج الذكاء الاصطناعي. بالإضافة إلى ذلك، يمكن أن تؤدي عملية اختبار المتانة عن غير قصد إلى خلق مخاطر معلوماتية، مما قد يُنبه الجهات الخبيثة إلى نقاط ضعف لم تكن معروفة على نطاق واسع. يتطلب إدارة هذه المخاطر بروتوكولات صارمة وإفصاحات مسؤولة.

في حين أن اختبار المتانة لا يزال محوريًا في اكتشاف وتقييم المخاطر، تُقرّ أوبن إيه آي بضرورة دمج وجهات نظر عامة أوسع حول السلوكيات والسياسات المثالية للذكاء الاصطناعي لضمان أن تتوافق هذه التقنية مع القيم والتوقعات المجتمعية.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى