تظهر الأبحاث الأخيرة أن نماذج اللغة الكبيرة المعروفة باسم نماذج التوليد التلقائي (dLLMs) تقدم بديلاً واعدًا في مجال الذكاء الاصطناعي. حيث تمكّن هذه النماذج من تنفيذ توقعات متعددة في نفس الوقت، إلا أن بعض التحديات لا تزال تعيق استخدامها العملي، مثل زمن الاستجابة المرتفع أثناء التشغيل. تكشف دراسة جديدة النقاب عن أن جزءًا كبيرًا من هذه المشكلات يتعلق بالتكرار الذي يحدث أثناء عملية التشفير، والذي يمكن أن يكون نتيجة للازدواجية الفراغية الناتجة عن مجموعات الثقة والغموض في الموضع، بالإضافة إلى الفائض الزمني الناتج عن إعادة مسح التوقعات المستقرة.
وفي هذا السياق، تم تقديم نموذج $R^2$-dLLM، وهو إطار موحد يهدف إلى تقليل هذا التكرار من وجهتي النظر الخاصة بالتطبيق والتدريب. حيث يتضمن هذا النموذج قواعد تفسيرية جديدة لا تحتاج إلى تدريب، تجمع فيها التوقعات وثقة النماذج بشكل محلي، مع تحديد الرموز المستقرة زمنيًا لتقليل خطوات التشفير الزائدة.
علاوة على ذلك، تم اقتراح أنبوب تدريب مضبوط يقيس التكرار، مما يساعد على ملاءمة النموذج مع المسارات الفعالة لتشفير النصوص وتقليل الاعتماد على العتبات المحسوبة يدويًا. وأظهرت التجارب أن نموذج $R^2$-dLLM يقلل عدد خطوات التشفير بشكل متناسق بنسبة تصل إلى 75% مقارنة بالاستراتيجيات الحالية، مع الحفاظ على جودة التوليد التنافسية عبر نماذج ومهام مختلفة. تُظهر هذه النتائج أن تقليل التكرار خلال عملية التشفير هو عقبة مركزية في نماذج dLLMs، وأن معالجة هذه المشكلة بشكل صريح يمكن أن يؤدي إلى زيادة فعالة كبيرة.
تسريع نماذج اللغة الضخمة عبر تقليل التكرار الزمني والمكاني: اكتشاف جديد في الذكاء الاصطناعي
طرحت دراسة جديدة نموذج $R^2$-dLLM، الذي يعالج مشكلة التكرار خلال عملية التشفير. نتائج البحث تبشر بزيادة فعالية نماذج اللغات الضخمة وتقليل الوقت اللازم لتوليد النصوص.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
