تظهر الأبحاث الأخيرة في مجال الذكاء الاصطناعي أن نماذج اللغات الضخمة (Large Language Models - LLMs) تواجه تحديات كبيرة في مجال توليد الأرقام العشوائية من توزيعات احتمالية محددة. مع انتقال هذه النماذج من واجهات المحادثة إلى مكونات حيوية في الأنظمة العشوائية ذات الذكاء العام، بدأت الحاجة إلى توليد عينات دقيقة من توزيعات معينة تكتسب أهمية وظيفية ملحة.
في هذا السياق، أجرى الباحثون أول تدقيق إحصائي واسع النطاق على قدرة نماذج اللغات الضخمة على إجراء عينات احتمالية. تم اختبار 11 نموذجاً عبر 15 توزيعاً مختلفاً، مما أظهر وجود عدم توازن حاد في الأداء. استخدم الباحثون تصميم برتوكولي مزدوج، يتضمن توليد الدفعات حيث ينتج النموذج 1000 عينة في استجابة واحدة، والطلبات المستقلة التي تشمل 1000 استدعاء غير مرتبط.
أظهرت النتائج أن توليد الدفعات حقق نسبة نجاح متواضعة تبلغ 7% فقط، بينما فشلت الطلبات المستقلة تقريباً في تحقيق أي نجاح، حيث لم يتمكن 10 من النماذج الـ 11 من اجتياز أي من التوزيعات. كما تم الكشف عن أن دقة العينة تتدهور بشكل متواصل مع تعقيد التوزيع، وتزداد سوءاً مع ارتفاع عدد العينات.
تشير هذه الاكتشافات إلى أن نماذج اللغات الضخمة الحالية تفتقر إلى عينة داخلية وظيفية، وهو ما يتطلب استخدام أدوات خارجية لضمان دقة التوقعات في التطبيقات التي تحتاج إلى ضمانات إحصائية. على سبيل المثال، تفشل النماذج في تطبيق قيود موحدة على مواضع الإجابة في توليد أسئلة الاختيار المتعدد، وتنتهك بشكل منهجي الأهداف السكانية في توليد النصوص المرتبطة بالصورة.
ختامًا، تبرز هذه النتائج المخاوف بشأن دقة نماذج الذكاء الاصطناعي في التطبيقات العملية، مما يستدعي مزيداً من البحث والتطوير لضمان موثوقيتها.
نماذج اللغات الضخمة تفشل في لعب النرد: هل تعاني من صعوبة في توليد الأرقام العشوائية؟
تكشف دراسة حديثة أن نماذج اللغات الضخمة (LLMs) تواجه صعوبة في توليد أرقام عشوائية من توزيعات احتمالية، مما يؤثر على دقتها في التطبيقات العملية. قد تكون هذه النتائج مثيرة للقلق، حيث تحتاج التطبيقات المستقبلية لدقة أكبر.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
