تسريع نماذج اللغة الضخمة عبر تقليل التكرار الزمني والمكاني: اكتشاف جديد في الذكاء الاصطناعي

تظهر الأبحاث الأخيرة أن نماذج اللغة الكبيرة المعروفة باسم نماذج التوليد التلقائي (dLLMs) تقدم بديلاً واعدًا في مجال الذكاء الاصطناعي. حيث تمكّن هذه النماذج من تنفيذ توقعات متعددة في نفس الوقت، إلا أن بعض التحديات لا تزال تعيق استخدامها العملي، مثل زمن الاستجابة المرتفع أثناء التشغيل. تكشف دراسة جديدة النقاب عن أن جزءًا كبيرًا من هذه المشكلات يتعلق بالتكرار الذي يحدث أثناء عملية التشفير، والذي يمكن أن يكون نتيجة للازدواجية الفراغية الناتجة عن مجموعات الثقة والغموض في الموضع، بالإضافة إلى الفائض الزمني الناتج عن إعادة مسح التوقعات المستقرة.

وفي هذا السياق، تم تقديم نموذج $R^2$-dLLM، وهو إطار موحد يهدف إلى تقليل هذا التكرار من وجهتي النظر الخاصة بالتطبيق والتدريب. حيث يتضمن هذا النموذج قواعد تفسيرية جديدة لا تحتاج إلى تدريب، تجمع فيها التوقعات وثقة النماذج بشكل محلي، مع تحديد الرموز المستقرة زمنيًا لتقليل خطوات التشفير الزائدة.

علاوة على ذلك، تم اقتراح أنبوب تدريب مضبوط يقيس التكرار، مما يساعد على ملاءمة النموذج مع المسارات الفعالة لتشفير النصوص وتقليل الاعتماد على العتبات المحسوبة يدويًا. وأظهرت التجارب أن نموذج $R^2$-dLLM يقلل عدد خطوات التشفير بشكل متناسق بنسبة تصل إلى 75% مقارنة بالاستراتيجيات الحالية، مع الحفاظ على جودة التوليد التنافسية عبر نماذج ومهام مختلفة. تُظهر هذه النتائج أن تقليل التكرار خلال عملية التشفير هو عقبة مركزية في نماذج dLLMs، وأن معالجة هذه المشكلة بشكل صريح يمكن أن يؤدي إلى زيادة فعالة كبيرة.

تسريع نماذج اللغة الضخمة عبر تقليل التكرار الزمني والمكاني: اكتشاف جديد في الذكاء الاصطناعي

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة في نمذجة المستخدمين: قفزة مذهلة نحو شخصيات مُبنية على أدلة من سجلات السلوك!

قفزة مذهلة في نمذجة العالم: ثورة جديدة في التخطيط والتحكم للوكالات الم embodiment

ثورة في نماذج اللغة: كيف تم بناء Granite 4.1!