نقاط ضعف نماذج الرؤية الحاسوبية في استرجاع صور الحياة البرية
بوابة الذكاء الاصطناعي - وحدة المتابعة

كشفت دراسة حديثة أجراها باحثون من مختبر علوم الحاسوب والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا (CSAIL) وجامعة كوليدج لندن ومنصة iNaturalist وغيرها، عن نقاط ضعف في نماذج الرؤية الحاسوبية متعددة الوسائط (VLMs) المستخدمة في استرجاع صور الحياة البرية من قواعد البيانات الضخمة. وتُعدّ هذه القواعد، التي تحتوي على ملايين الصور لأنواع مختلفة من الكائنات الحية، أداة بحثية قيّمة لعلماء البيئة لدراسة سلوك الكائنات، وظروفها النادرة، وأنماط هجرتها، واستجاباتها للتلوث وتغيرات المناخ.
إلا أن البحث في هذه القواعد واستخراج الصور ذات الصلة بالفرضية البحثية عملية تستغرق وقتًا طويلاً. لذا، سعى الباحثون لاختبار مدى فعالية نماذج VLMs، المدربة على النصوص والصور، في مساعدة الباحثين على تحديد تفاصيل دقيقة، مثل أنواع الأشجار في خلفية الصورة.
أجرى الفريق اختبار أداء باستخدام مجموعة بيانات “INQUIRE” التي تضم 5 ملايين صورة للحياة البرية و 250 طلب بحث من علماء البيئة وخبراء التنوع البيولوجي. وقد أظهرت النتائج أن نماذج VLMs الأكبر والأكثر تطوراً، المدربة على بيانات أكبر، قد تُحقق نتائج جيدة في الاستعلامات البسيطة حول المحتوى المرئي، مثل تحديد الحطام على الشعاب المرجانية. لكنها واجهت صعوبة كبيرة مع الاستعلامات التي تتطلب معرفة متخصصة، مثل تحديد ظروف بيولوجية أو سلوكيات محددة. فعلى سبيل المثال، استطاعت النماذج بسهولة نسبية العثور على صور قناديل البحر على الشاطئ، لكنها عانت من صعوبة في التعامل مع استعلامات أكثر تعقيدًا مثل “ظاهرة أكسانثيزم في الضفدع الأخضر”، وهي حالة تحدّ من قدرة الضفدع على إنتاج اللون الأصفر في جلده.
تشير هذه النتائج إلى أن النماذج تحتاج إلى المزيد من البيانات التدريبية المتخصصة في المجال لمعالجة الاستعلامات الصعبة. ويعتقد إدوارد فيندرو، طالب الدكتوراه في معهد ماساتشوستس للتكنولوجيا والباحث المشارك في الدراسة، أنه من خلال تزويد النماذج ببيانات أكثر إفادة، يمكن أن تصبح مساعدين بحثيين ممتازين في المستقبل. ويضيف فيندرو: “نريد بناء أنظمة استرجاع تجد النتائج الدقيقة التي يبحث عنها العلماء عند رصد التنوع البيولوجي وتحليل تغير المناخ. نماذج الوسائط المتعددة لا تفهم اللغة العلمية المعقدة بشكل كامل بعد، لكننا نعتقد أن مجموعة بيانات INQUIRE ستكون معيارًا مهمًا لتتبع مدى تحسنها في فهم المصطلحات العلمية، ومساعدة الباحثين في النهاية على العثور تلقائيًا على الصور الدقيقة التي يحتاجونها.”
أظهرت تجارب الفريق أن النماذج الأكبر حجماً كانت أكثر فعالية في عمليات البحث البسيطة والمعقدة على حد سواء، وذلك بفضل بياناتها التدريبية الواسعة. وقد استخدم الفريق مجموعة بيانات INQUIRE لاختبار قدرة نماذج VLMs على تضييق نطاق 5 ملايين صورة إلى أفضل 100 نتيجة ذات صلة. وقد نجحت نماذج كبيرة مثل “SigLIP” في ذلك مع الاستعلامات البسيطة، بينما عانت نماذج CLIP الأصغر حجمًا. ويقول فيندرو إن نماذج VLMs الأكبر “بدأت للتو في أن تصبح مفيدة” في تصنيف الاستعلامات الأصعب.
قام فيندرو وزملاؤه أيضًا بتقييم مدى قدرة النماذج متعددة الوسائط على إعادة ترتيب أفضل 100 نتيجة، وإعادة تنظيم الصور الأكثر صلة بالبحث. وفي هذه الاختبارات، عانت حتى النماذج اللغوية الكبيرة المدربة على بيانات أكثر دقة، مثل GPT-4o، حيث بلغت درجة دقتها 59.6% فقط، وهي أعلى درجة تم تحقيقها بواسطة أي نموذج.
وقد قدم الباحثون هذه النتائج في مؤتمر أنظمة معالجة المعلومات العصبية (NeurIPS) في وقت سابق من هذا الشهر.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي