بوت وروبوتبرامج وتطبيقات

شفافية البيانات في تدريب نماذج اللغات الكبيرة: تحديات وفرص

 بوابة الذكاء الاصطناعي - وحدة المتابعة 

تُستخدم مجموعات ضخمة من البيانات لِتدريب نماذج اللغات الكبيرة، والتي تُجمع من مصادر متنوعة على الإنترنت. ولكن مع دمج هذه المجموعات وتجميعها في مجموعات أخرى، تُفقد المعلومات المهمة حول أصولها وقيود استخدامها، مما يُثير مخاوف قانونية وأخلاقية.

فقد تؤدي هذه المشكلة إلى إضعاف أداء النموذج، حيث قد تُستخدم بيانات غير مناسبة لتدريب نموذج مُخصص لمهمة معينة. كما قد تُؤدي بيانات من مصادر غير معروفة إلى وجود تحيزات في النموذج، مما يُؤثر على دقة تنبؤاته.

لِمعالجة هذه المشكلة، أجرى فريق من الباحثين من معهد ماساتشوستس للتكنولوجيا (MIT) دراسة شاملة على أكثر من 1800 مجموعة بيانات نصية من مواقع الاستضافة الشائعة، ووجدوا أن أكثر من 70% من هذه المجموعات تُغفل معلومات الترخيص، بينما يحتوي حوالي 50% منها على معلومات خاطئة.

وتبعًا لنتائج الدراسة، تم تطوير أداة سهلة الاستخدام تُسمى “مستكشف أصل البيانات” (Data Provenance Explorer) تُساعد على توليد ملخصات واضحة لِمعلومات مُنشئي مجموعة البيانات، ومصادرها، وترخيصها، واستخداماتها المسموح بها.

وقال أليكس “ساندى” بينتلاند، أستاذ في معهد ماساتشوستس للتكنولوجيا وقائد مجموعة ديناميكيات الإنسان في مختبر MIT الإعلامي، والمشارك في تأليف ورقة بحثية جديدة حول المشروع: “يمكن أن تُساعد هذه الأدوات المُنظّمين والممارسين على اتخاذ قرارات مُستنيرة حول نشر الذكاء الاصطناعي، وتعزيز التطوير المسؤول للذكاء الاصطناعي”.

يمكن أن تُساعد أداة “مستكشف أصل البيانات” مُمارسي الذكاء الاصطناعي على بناء نماذج أكثر فعالية من خلال تمكينهم من اختيار مجموعات بيانات تدريب مُناسبة للغرض المُراد من النموذج. وعلى المدى الطويل، يمكن أن يُحسّن ذلك من دقة نماذج الذكاء الاصطناعي في المواقف الواقعية، مثل تلك المُستخدمة لتقييم طلبات القروض أو الرد على استفسارات العملاء.

وقال روبرت ماهاري، طالب دراسات عليا في مجموعة ديناميكيات الإنسان في معهد ماساتشوستس للتكنولوجيا، ومُرشح للحصول على درجة الدكتوراه في القانون من كلية الحقوق بجامعة هارفارد، والمشارك في تأليف الورقة البحثية: “واحدة من أفضل الطرق لِفهم قدرات وقيود نموذج الذكاء الاصطناعي هي فهم البيانات التي تم تدريبه عليها. عندما يكون هناك خطأ في تحديد أصل البيانات أو التباس حول مصدرها، فإن ذلك يُمثل مشكلة خطيرة في الشفافية”.

وتُركز الدراسة على مجموعات بيانات “التدقيق الدقيق” (fine-tuning) التي تُستخدم لتحسين قدرات نموذج اللغات الكبيرة لمهمة محددة، مثل الإجابة على الأسئلة. وتُصمم هذه المجموعات بعناية من قبل الباحثين أو المؤسسات الأكاديمية أو الشركات، وتُمنح تراخيص محددة.

وعندما تُجمع هذه المجموعات في مجموعات أكبر من قبل منصات التجميع الجماعي، تُفقد بعض معلومات الترخيص الأصلية.

وقال ماهاري: “يجب أن تُؤخذ هذه التراخيص على محمل الجد، ويجب أن تكون قابلة للتنفيذ”.

فمثلاً، إذا كانت شروط ترخيص مجموعة بيانات خاطئة أو مفقودة، فقد يُضطر شخص ما إلى إنفاق الكثير من المال والوقت لتطوير نموذج قد يُجبر على إزالته لاحقًا بسبب احتواء بعض بيانات التدريب على معلومات خاصة.

وأضاف لونغبري: “قد ينتهي الأمر بالأشخاص بتدريب نماذج لا يفهمون قدراتها أو مخاطرها أو مشكلاتها، والتي تنبع في النهاية من البيانات”.

لِبدء هذه الدراسة، حدد الباحثون رسميًا “أصل البيانات” كمزيج من مصدر مجموعة البيانات، ومُنشئها، وتراث ترخيصها، بالإضافة إلى خصائصها. من هناك، تم تطوير إجراء تدقيق مُنظّم لِتتبع أصل البيانات لأكثر من 1800 مجموعة بيانات نصية من مستودعات الإنترنت الشائعة.

بعد اكتشاف أن أكثر من 70% من هذه المجموعات تحتوي على تراخيص “غير محددة” تُغفل الكثير من المعلومات، عمل الباحثون على ملء الفراغات. من خلال جهودهم، تم تقليل عدد مجموعات البيانات التي تحتوي على تراخيص “غير محددة” إلى حوالي 30%.

كشفت الدراسة أيضًا أن التراخيص الصحيحة كانت غالبًا أكثر تقييدًا من تلك التي تم تعيينها بواسطة مستودعات البيانات.

بالإضافة إلى ذلك، وجدوا أن جميع مُنشئي مجموعات البيانات تقريبًا كانوا مُركزين في الشمال العالمي، مما قد يُحد من قدرات النموذج إذا تم تدريبه لِلنشر في منطقة مختلفة. فمثلاً، قد لا تحتوي مجموعة بيانات باللغة التركية تم إنشاؤها بشكل أساسي من قبل أشخاص في الولايات المتحدة والصين على أي جوانب ثقافية مهمة.

وقال ماهاري: “نُخادع أنفسنا تقريبًا بِاعتقادنا أن مجموعات البيانات أكثر تنوعًا مما هي عليه في الواقع”.

ومن المثير للاهتمام، لاحظ الباحثون أيضًا ارتفاعًا كبيرًا في القيود المفروضة على مجموعات البيانات التي تم إنشاؤها في عامي 2023 و 2024، والذي قد يكون مدفوعًا بمخاوف من قبل الأكاديميين من أن تُستخدم مجموعات بياناتهم لأغراض تجارية غير مُقصودة.

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي

مقالات ذات صلة

زر الذهاب إلى الأعلى