لماذا لا تستطيع أنظمة الذكاء الاصطناعي تهجئة كلمة ‘strawberry’؟

بوابة الذكاء الاصطناعي - وحدة المتابعة

الأربعاء - 28 أغسطس 2024

3 3 دقائق

لماذا لا تستطيع أنظمة الذكاء الاصطناعي تهجئة كلمة ‘strawberry’؟- OIMEDIA News - بوابة الذكاء الاصطناعي

تستطيع نماذج اللغات الكبيرة (LLMs) كتابة المقالات وحل المعادلات في ثوانٍ. يمكنها تحليل تيرابايتات من البيانات بسرعة تفوق سرعة الإنسان في فتح كتاب. ومع ذلك، فإن هذه الأنظمة الذكية التي تبدو وكأنها عالمة كل شيء، تفشل أحيانًا بشكلٍ مذهل، لدرجة أن الخطأ يصبح منتشرًا على نطاق واسع، ونشعر جميعًا بالارتياح لأننا نعلم أن الوقت لم يحن بعد لكي نخضع لحكم هذه الأنظمة الذكية.

يُعدّ فشل نماذج اللغات الكبيرة في فهم مفاهيم الحروف والمقاطع دليلاً على حقيقة أكبر غالبًا ما ننساها: هذه الأنظمة لا تمتلك أدمغة. فهي لا تفكر مثلنا. ليست بشرًا، ولا حتى تشبه البشر بشكلٍ خاص.

تُبنى معظم نماذج اللغات الكبيرة على “المحولات” (Transformers)، وهي نوع من بنية التعلم العميق. تقسم نماذج المحولات النص إلى “رموز” (Tokens)، والتي يمكن أن تكون كلمات كاملة أو مقاطع أو أحرف، اعتمادًا على النموذج.

يقول ماثيو غوزدال، باحث في مجال الذكاء الاصطناعي وأستاذ مساعد في جامعة ألبرتا، لـ “تيك كرانش”: “تعتمد نماذج اللغات الكبيرة على بنية المحولات، والتي بشكلٍ ملحوظ لا تقرأ النص فعليًا. ما يحدث عند إدخال موجه هو أنه يتم تحويله إلى ترميز. عندما ترى النموذج كلمة “ال” مثلاً، يكون لديها ترميز واحد فقط لما تعنيه “ال” ، لكنها لا تعرف عن “أ” و “ل” و “ال”.

ذلك لأن المحولات غير قادرة على استقبال أو إخراج النص الفعلي بكفاءة. بدلاً من ذلك، يتم تحويل النص إلى تمثيلات رقمية لنفسه، والتي يتم بعد ذلك وضعها في سياق لمساعدة الذكاء الاصطناعي على تقديم استجابة منطقية. بعبارة أخرى، قد تعرف الذكاء الاصطناعي أن الرمزين “فراولة” و “berry” يشكلان “فراولة”، لكنها قد لا تفهم أن “فراولة” تتكون من الحروف “ف” و “ر” و “ا” و “و” و “ل” و “ة” و “ب” و “ي” و “ة” و “ة” بهذا الترتيب المحدد. وبالتالي، لا يمكنها أن تخبرك بعدد الحروف – ناهيك عن عدد “ة” – التي تظهر في كلمة “فراولة”.

ليست هذه مشكلة سهلة الحل، لأنها متأصلة في البنية نفسها التي تُشغل هذه النماذج.

يقول فويشت لـ “تيك كرانش”: “من الصعب نوعًا ما تجاوز مسألة ما يجب أن تكون عليه “الكلمة” بالضبط بالنسبة لنموذج لغة، وحتى لو اتفق خبراء البشر على قاموس رموز مثالي، فمن المحتمل أن تظل النماذج تجد فائدة في “تجميع” الأشياء بشكلٍ أكبر. أعتقد أنه لا يوجد شيء اسمه “رمز” مثالي بسبب هذا النوع من الغموض”.

تزداد هذه المشكلة تعقيدًا عندما تتعلم نموذج لغة أكثر من لغة. على سبيل المثال، قد تفترض بعض أساليب “التحويل إلى رموز” (Tokenization) أن مسافة في جملة ستسبق دائمًا كلمة جديدة، لكن العديد من اللغات مثل الصينية واليابانية والتاي واللاوية والكورية والخمرية وغيرها لا تستخدم المسافات لفصل الكلمات. وجدت ييني جون، باحثة في مجال الذكاء الاصطناعي في جوجل ديب مايند، في دراسة أجريت عام 2023 أن بعض اللغات تحتاج إلى 10 أضعاف عدد الرموز التي تحتاجها اللغة الإنجليزية لنقل نفس المعنى.

يقول فويشت: “ربما يكون من الأفضل السماح للنماذج بالنظر إلى الحروف مباشرة دون فرض “التحويل إلى رموز”، لكن هذا غير ممكن حسابيًا حاليًا بالنسبة للمحولات”.

لا تستخدم مولدات الصور مثل Midjourney و DALL-E بنية المحولات التي تكمن تحت غطاء مولدات النص مثل ChatGPT. بدلاً من ذلك، تستخدم مولدات الصور عادةً نماذج “الانتشار” (Diffusion Models)، والتي تعيد بناء صورة من الضوضاء. يتم تدريب نماذج الانتشار على قواعد بيانات ضخمة من الصور، ويتم تحفيزها على محاولة إعادة إنشاء شيء يشبه ما تعلمته من بيانات التدريب.

يقول أسملاش تيكا هادجو، المؤسس المشارك لشركة Lesan وزميل في معهد DAIR، لـ “تيك كرانش”: “تميل مولدات الصور إلى الأداء بشكلٍ أفضل على الأشياء مثل السيارات ووجوه الناس، وأقل من ذلك على الأشياء الصغيرة مثل الأصابع والخط اليدوي”.

قد يكون ذلك لأن هذه التفاصيل الصغيرة لا تظهر غالبًا بشكلٍ بارز في مجموعات التدريب مثل مفاهيم مثل أن الأشجار عادةً ما يكون لها أوراق خضراء. قد تكون مشاكل نماذج الانتشار أسهل في الحل من تلك التي تُصيب المحولات. على سبيل المثال، تحسنت بعض مولدات الصور في تمثيل الأيدي من خلال التدريب على المزيد من صور الأيدي البشرية الحقيقية.

يُشرح غوزدال: “حتى العام الماضي، كانت جميع هذه النماذج سيئة للغاية في تمثيل الأصابع، وهذه هي نفس المشكلة تمامًا مثل النص. لقد أصبحت جيدة للغاية في ذلك محليًا، لذلك إذا نظرت إلى يد بها ستة أو سبعة أصابع، يمكنك أن تقول: “واو، تبدو مثل إصبع”. وبالمثل، مع النص المُولّد، يمكنك أن تقول: “تبدو مثل “ح” و “تبدو مثل “ب”، لكنها سيئة للغاية في هيكلة هذه الأشياء معًا”.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

الوسوم