برامج وتطبيقاتتقارير ومتابعات

تقييمات السلامة لأنظمة الذكاء الاصطناعي تعاني من قصور كبير

بوابة الذكاء الاصطناعي - وحدة المتابعة

تُظهر دراسة جديدة أن اختبارات ومعايير تقييم سلامة أنظمة الذكاء الاصطناعي الحالية قد لا تكون كافية رغم تزايد الطلب على ضمان سلامة هذه الأنظمة ومساءلتها.

تُواجه نماذج الذكاء الاصطناعي التوليدية – وهي نماذج قادرة على تحليل وإخراج نصوص، وصور، وموسيقى، وفيديوهات، وغيرها – مزيدًا من التدقيق بسبب ميلها إلى ارتكاب الأخطاء وسلوكها غير المتوقع بشكل عام. وتقترح الآن مؤسسات من وكالات القطاع العام إلى شركات التكنولوجيا الكبرى معايير جديدة لاختبار سلامة هذه النماذج.

في نهاية العام الماضي، شكلت شركة Scale AI الناشئة مختبرًا مخصصًا لتقييم مدى توافق النماذج مع إرشادات السلامة. وفي هذا الشهر، أصدرت NIST ومعهد سلامة الذكاء الاصطناعي في المملكة المتحدة أدوات مصممة لتقييم مخاطر النموذج.

لكن قد تكون هذه الاختبارات والأساليب التي تُستخدم لاختبار النماذج غير كافية.

أجرى معهد آدا لوفلايس (ALI)، وهو منظمة بحثية غير ربحية في مجال الذكاء الاصطناعي مقرها المملكة المتحدة، دراسة شملت مقابلات مع خبراء من مختبرات أكاديمية والمجتمع المدني وموردي نماذج، بالإضافة إلى مراجعة أبحاث حديثة حول تقييمات سلامة الذكاء الاصطناعي. ووجد مؤلفو الدراسة أن تقييمات السلامة الحالية قد تكون مفيدة، لكنها غير شاملة، ويمكن التلاعب بها بسهولة، ولا توفر بالضرورة مؤشرًا على كيفية سلوك النماذج في سيناريوهات العالم الحقيقي.

قال إليوت جونز، الباحث الأول في معهد آدا لوفلايس والمؤلف المشارك للتقرير، لـ TechCrunch: “نحن نتوقع أن تكون المنتجات التي نستخدمها آمنة وموثوقة، سواء كانت هاتفًا ذكيًا أو دواءً موصوفًا أو سيارة. في هذه القطاعات، يتم اختبار المنتجات بدقة لضمان سلامتها قبل نشرها. هدفت أبحاثنا إلى فحص قيود الأساليب الحالية لتقييم سلامة الذكاء الاصطناعي، وتقييم كيفية استخدام التقييمات حاليًا واستكشاف استخدامها كأداة لصانعي السياسات والمنظمين.”

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى