🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

ثلاثة أدوار، نموذج واحد: كيف تعزز تنسيق الأدوار أداء نماذج الذكاء الاصطناعي الصغيرة؟

تواجه نماذج الذكاء الاصطناعي الكبيرة تحديات في التشغيل على الأجهزة المنخفضة، لكن دراسة جديدة توضح كيف يمكن لتحسينات وقت الاستدلال أن تضيق الفجوة في الأداء بين النماذج الصغيرة والكبيرة. باستخدام نموذج بسيط، تحقق الدراسة إنجازات ملحوظة في المهام المعقدة.

في عالم الذكاء الاصطناعي، تُظهر النماذج اللغوية الكبيرة (Large Language Models) وعدًا كبيرًا في تطبيقات استخدام الأدوات الواقعية، ومع ذلك، يظل تشغيل نماذج قادرة على أجهزة ذات مواصفات متواضعة تحديًا كبيرًا. تناولت دراسة جديدة إمكانية تحسين أداء نموذج صغير في بيئات معقدة متعددة الخطوات فقط من خلال تحسينات في وقت الاستدلال، ومن دون الحاجة إلى تدريب إضافي.

باستخدام وحدة معالجة رسومية (GPU) بسعة 24GB، أجري تقييم على نموذج Qwen3-8B العام للمعايير المقررة في AppWorld تحت تكوينات دقة كاملة ونمذجة كمية ذات 4 بت. حيث أن النموذج، دون أي تدخل، حقق فقط نسبة 5.4% (FP16) و3.0% (AWQ) في إنجاز أهداف المهام. لكن بعد إجراء تحليل منهجي لأساليب الفشل، تم تقديم خط أنابيب للتدعيم يستند إلى ثلاثة مستويات، يستخدم نفس النموذج المجمد في ثلاثة أدوار مختلفة:

1. **نموذج التلخيص**: الذي يحافظ على العناصر الأساسية (التوكنات، بيانات اعتماد الوصول، ردود API) مع ضغط سجل الحوار.
2. **النموذج الرئيسي**: الذي يتعامل مع السياق المضغوط.
3. **نموذج التصحيح**: الذي يقوم بمراجعة وتصحيح مخرجات الكود للنموذج الرئيسي دون الرجوع إلى تاريخ المحادثة، مما يكسر حلقات الفشل المتكررة.

عند تطبيق هذا التدعيم على نفس النموذج غير المعدل، حقق الأداء تحسنًا ملحوظًا، حيث ارتفعت نسبة إنجاز الأهداف إلى 8.9% (FP16) و5.9% (AWQ)، مما يعكس تقريبًا ضعف الأداء في كلا الإعدادين، مع تحقيق مكاسب ملحوظة خاصة في المهام ذات الصعوبة الأولى (15.8% إلى 26.3% FP16؛ 5.3% إلى 14.0% AWQ).

بالإضافة إلى ذلك، على دقة الاستدلال الكاملة، تجاوز نموذجنا المكون من 8 مليار وحدة أداء DeepSeek-Coder 33B Instruct (7.1%) من التقييم الأصلي لـ AppWorld، مما يثبت أن التدخلات المنهجية في وقت الاستدلال يمكن أن تجعل النماذج الصغيرة تنافس الأنظمة التي تزن أربعة أضعاف حجمها.

نؤطر هذا المنهج كسياسة مدعومة على نموذج أساسي مجمد، مع ثلاث استدعاءات لنفس الأوزان مختلفة في الشروط، مما يرسم صلات مع توسيع الحوسبة في وقت الاختبار وتشكيل فضاء العمل في التعلم التعزيزي.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة