أرشيف بوابة الذكاء الإصطناعي

دقة التعرف على الصور: تحدي غير مسبوق يعرقل نجاح الذكاء الاصطناعي الحالي

 

منصة الذكاء الاصطناعي – متابعات:

يقيس معيار “وقت العرض الأدنى” تعقيد التعرف على الصور في أنظمة الذكاء الاصطناعي من خلال قياس الوقت اللازم لتحديد الهوية بدقة من قبل الإنسان.

تخيل أنك تتصفح الصور على هاتفك وتصادف صورة لا تستطيع في البداية التعرف عليها. تبدو وكأنها شيء ضبابي على الأريكة؛ هل يمكن أن تكون وسادة أو معطفًا؟ بعد بضع ثوانٍ، تنقر الصورة في ذهنك – بالطبع! تلك الكرة الناعمة هي قطة صديقك، موكا. في حين يمكن فهم بعض الصور الأخرى في لحظات، لماذا كانت صورة القط هذه أكثر صعوبة؟

كان باحثو مختبر MIT لعلوم الكمبيوتر والذكاء الاصطناعي (CSAIL) مفاجئين لاكتشافهم أن مفهوم صعوبة التعرف على الصور بالنسبة للبشر تم تجاهله تمامًا، على الرغم من الأهمية الحاسمة لفهم البيانات البصرية في مجالات حيوية تتراوح من الرعاية الصحية إلى وسائل النقل وأجهزة المنزل. واحدة من الدوافع الرئيسية للتقدم في الذكاء الاصطناعي القائم على التعلم العميق هي مجموعات البيانات، ومع ذلك، لا نعلم الكثير عن كيفية دفع البيانات التقدم في التعلم العميق على نطاق واسع، باستثناء أن الأكبر يكون الأفضل.

في التطبيقات العملية التي تتطلب فهم البيانات البصرية، يفوق البشر نماذج التعرف على الكائنات على الرغم من أن النماذج تؤدي بشكل جيد على مجموعات البيانات الحالية، بما في ذلك تلك التي صممت صراعاً الجهات المعرضة للتحيز أو انحرافات التوزيع. يستمر هذا المشكلة، جزئيًا، لأننا ليس لدينا توجيهات حول صعوبة الصورة أو مجموعة البيانات. من دون التحكم في صعوبة الصور المستخدمة للتقييم، يصعب تقييم التقدم بشكل موضوعي نحو الأداء على مستوى الإنسان، وتغطية مجموعة القتوصلت دراسة جديدة قام بها ديفيد مايو، طالب الدكتوراه في الهندسة الكهربائية وعلوم الكمبيوتر في معهد ماساتشوستس للتكنولوجيا (MIT) وعضو في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL)، إلى تطوير مقياس جديد يُسمى “وقت العرض الأدنى” (MVT)، والذي يقيس صعوبة التعرف على صورة بناءً على الوقت الذي يحتاجه الشخص لعرض الصورة قبل أن يتمكن من تحديد هويتها بشكل صحيح. واستخدم الفريق مجموعة فرعية من مجموعة الصور ImageNet، وهي مجموعة بيانات شائعة في مجال التعلم الآلي، بالإضافة إلى ObjectNet، وهي مجموعة بيانات مصممة لاختبار قدرة التعرف على الكائنات. وقد عرض الفريق الصور على المشاركين لفترات زمنية متفاوتة تتراوح بين 17 ميلي ثانية و10 ثوانٍ، وطلب منهم اختيار الكائن الصحيح من بين مجموعة من 50 خيارًا. وبعد أكثر من 200,000 محاولة عرض للصور، اكتشف الفريق أن مجموعات الاختبار الحالية، بما في ذلك ObjectNet، تميل إلى الانحياز نحو صور MVT سهلة وقصيرة، حيث تعتمد الغالبية العظمى من أداء المقاييس الأساسية على الصور التي يسهل تعرفها بالنسبة للبشر.

تم التعرف على اتجاهات مثيرة للاهتمام في أداء النماذج – خاصة فيما يتعلق بالتوسع. أظهرت النماذج الأكبر تحسينًا كبيرًا في الصور الأكثر بساطة ولكن تحقق تقدمًا أقل في الصور الأكثر تحديًا. وتميزت نماذج CLIP، التي تجمع بين اللغة والرؤية، حيث تجاهلت باتجاه التعرف على الصور بشكل أكثر تشابهًا مع التعرف البشري.

وقال مايو: “تقليديًا، كانت مجموعات بيانات التعرف على الكائنات تميل إلى الصور غير المعقدة أقل تعقيدًا، وهذه الممارسة أدت إلى تضخيم مقاييس أداء النماذج، وهو أمر لا يعكس حقًا قوة النماذج أو قدرتها على مواجهة المهام البصرية المعقدة.

هذا المحتوى تم بمعرفة وحدة الذكاء الاصطناعي  

مقالات ذات صلة

زر الذهاب إلى الأعلى