من يفوز في حرب الهلوسة بالذكاء الاصطناعي؟ جوجل أم أنثروبيك؟
أصدرت شركة “جاليليو”، الرائدة في مجال تطوير الذكاء الاصطناعي التوليدي للتطبيقات المؤسسية، أحدث مؤشر لها لقياس الهلوسة.
يُركز إطار التقييم هذا على “التوليد المُعزز بالاسترجاع” (RAG) ويُقيّم 22 نموذجًا رئيسيًا للذكاء الاصطناعي التوليدي (LLMs) من شركات بارزة مثل “أوبن إيه آي” و”أنثروبيك” و”جوجل” و”ميتا”. وقد تم توسيع نطاق المؤشر هذا العام بشكل كبير بإضافة 11 نموذجًا جديدًا ليعكس النمو السريع في نماذج LLMs مفتوحة المصدر ومغلقة المصدر على مدار الثمانية أشهر الماضية.
قال فيكرام تشاترجي، الرئيس التنفيذي والمؤسس المشارك لشركة “جاليليو”: “في عالم الذكاء الاصطناعي سريع التطور، يواجه المطورون والشركات تحديًا هامًا: كيفية الاستفادة من قوة الذكاء الاصطناعي التوليدي مع تحقيق التوازن بين التكلفة والدقة والموثوقية. غالبًا ما تستند مقاييس الأداء الحالية إلى حالات استخدام أكاديمية بدلاً من التطبيقات الواقعية.”
استخدم المؤشر مقياس تقييم خاص بشركة “جاليليو” يُسمى “التزام السياق” للتحقق من دقة المخرجات عبر أطوال مدخلات مختلفة تتراوح من 1000 إلى 100000 رمز. ويهدف هذا النهج إلى مساعدة الشركات على اتخاذ قرارات مستنيرة حول تحقيق التوازن بين السعر والأداء في تنفيذ الذكاء الاصطناعي لديها.
تشمل النتائج الرئيسية من المؤشر:
- برز نموذج “كلود 3.5 سونيت” من “أنثروبيك” كأفضل نموذج أداء عام، حيث حقق درجات شبه مثالية بشكل متسق في سيناريوهات السياق القصيرة والمتوسطة والطويلة.
- احتل “جيميني 1.5 فلاش” من “جوجل” المرتبة الأولى من حيث الكفاءة من حيث التكلفة، حيث قدم أداءً قويًا عبر جميع المهام.
- برز “كوين 2-72 بي-إنستراكت” من “علي بابا” كأفضل نموذج مفتوح المصدر، خاصةً في سيناريوهات السياق القصيرة والمتوسطة.
سلط المؤشر أيضًا الضوء على العديد من الاتجاهات في عالم LLMs:
- تُقلص نماذج مفتوحة المصدر الفجوة بسرعة مع نظيراتها مغلقة المصدر، حيث تقدم أداءً محسّنًا في الهلوسة بتكاليف أقل.
- تُظهر نماذج LLMs الحالية المُعززة بالاسترجاع تحسينات كبيرة في التعامل مع أطوال السياق الممتدة دون المساس بالجودة أو الدقة.
- تفوق النماذج الأصغر أحيانًا على النماذج الأكبر حجمًا، مما يشير إلى أن التصميم الفعال قد يكون أكثر أهمية من الحجم.
- يشير ظهور أداء قوي من خارج الولايات المتحدة، مثل “ميسترال-لارج” من “ميسترال” و”كوين 2-72 بي-إنستراكت” من “علي بابا”، إلى تنافس عالمي متزايد في تطوير LLMs.
بينما تحتفظ النماذج مغلقة المصدر مثل “كلود 3.5 سونيت” و”جيميني 1.5 فلاش” بمركز الصدارة بسبب بيانات التدريب الخاصة، يُظهر المؤشر أن المشهد يتطور بسرعة. كان أداء “جوجل” ملحوظًا بشكل خاص، حيث أدى نموذج “جيمينا-7 بي” مفتوح المصدر أداءً ضعيفًا بينما احتل “جيميني 1.5 فلاش” مغلق المصدر المرتبة الأولى بشكل متسق.
مع مواصلة صناعة الذكاء الاصطناعي في التعامل مع الهلوسة كعائق رئيسي أمام منتجات الذكاء الاصطناعي التوليدي الجاهزة للإنتاج، يُقدم مؤشر الهلوسة من “جاليليو” رؤى قيمة للشركات التي تبحث عن تبني النموذج المناسب لاحتياجاتها المحددة وقيدودها المالية.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي