نماذج اللغات الضخمة تفشل في لعب النرد: هل تعاني من صعوبة في توليد الأرقام العشوائية؟

تظهر الأبحاث الأخيرة في مجال الذكاء الاصطناعي أن نماذج اللغات الضخمة (Large Language Models - LLMs) تواجه تحديات كبيرة في مجال توليد الأرقام العشوائية من توزيعات احتمالية محددة. مع انتقال هذه النماذج من واجهات المحادثة إلى مكونات حيوية في الأنظمة العشوائية ذات الذكاء العام، بدأت الحاجة إلى توليد عينات دقيقة من توزيعات معينة تكتسب أهمية وظيفية ملحة.

في هذا السياق، أجرى الباحثون أول تدقيق إحصائي واسع النطاق على قدرة نماذج اللغات الضخمة على إجراء عينات احتمالية. تم اختبار 11 نموذجاً عبر 15 توزيعاً مختلفاً، مما أظهر وجود عدم توازن حاد في الأداء. استخدم الباحثون تصميم برتوكولي مزدوج، يتضمن توليد الدفعات حيث ينتج النموذج 1000 عينة في استجابة واحدة، والطلبات المستقلة التي تشمل 1000 استدعاء غير مرتبط.

أظهرت النتائج أن توليد الدفعات حقق نسبة نجاح متواضعة تبلغ 7% فقط، بينما فشلت الطلبات المستقلة تقريباً في تحقيق أي نجاح، حيث لم يتمكن 10 من النماذج الـ 11 من اجتياز أي من التوزيعات. كما تم الكشف عن أن دقة العينة تتدهور بشكل متواصل مع تعقيد التوزيع، وتزداد سوءاً مع ارتفاع عدد العينات.

تشير هذه الاكتشافات إلى أن نماذج اللغات الضخمة الحالية تفتقر إلى عينة داخلية وظيفية، وهو ما يتطلب استخدام أدوات خارجية لضمان دقة التوقعات في التطبيقات التي تحتاج إلى ضمانات إحصائية. على سبيل المثال، تفشل النماذج في تطبيق قيود موحدة على مواضع الإجابة في توليد أسئلة الاختيار المتعدد، وتنتهك بشكل منهجي الأهداف السكانية في توليد النصوص المرتبطة بالصورة.

ختامًا، تبرز هذه النتائج المخاوف بشأن دقة نماذج الذكاء الاصطناعي في التطبيقات العملية، مما يستدعي مزيداً من البحث والتطوير لضمان موثوقيتها.

نماذج اللغات الضخمة تفشل في لعب النرد: هل تعاني من صعوبة في توليد الأرقام العشوائية؟

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!