في عالم الذكاء الاصطناعي المتسارع، تُسجل نماذج اللغة الكبيرة (Large Language Models) تقدمًا ملحوظًا في معالجة المهام المعقدة عبر سلسلة من خطوات التفكير الطويلة. لكن ماذا لو كان بإمكاننا تعزيز هذا الأداء بشكل أكبر؟ هنا تأتي فكرة "توسيع اختبار الوقت" (Test-Time Scaling)، وهي استراتيجية لتحسين أداء نماذج اللغة عن طريق أخذ عينات متعددة من خطوات التفكير الوسيطة، التحقق من صحتها، واختيار أفضلها لاستكمال العملية.
مع ذلك، تشير التحديات الحالية في تقنيات التحقق مثل نماذج مكافأة العمليات (Process Reward Models) إلى أنها ذات تكلفة حسابية مرتفعة، ومحدودة في مجالات محددة، وتحتاج إلى تحليلات بشرية أو مدعومة بنماذج كبيرة.
في خطوة رائدة، اقترح الباحثون بديلاً خفيف الوزن يعتمد على التحقق من خطوات التفكير عبر تحقيق حالة داخلية لنماذج اللغة، حيث يقومون بتدريب نموذج استكشاف يعتمد على الترانسفورمر. يستخدم هذا النموذج حالات داخلية لنموذج اللغة المجمد لتقدير مصداقية خطوات التفكير أثناء التوليد. يمكن أن تتولد التعليقات التوضيحية إما بواسطة نموذج لغة أكبر مثل DeepSeek-R1 أو بطريقة ذاتية من قبل النموذج نفسه.
تتميز هذه المجسات بأنها فعالة وخفيفة الوزن، حيث تحتوي على أقل من 10 ملايين معلمة. وعبر مجموعة متنوعة من المجالات بما في ذلك الرياضيات، والتخطيط، والإجابة على أسئلة المعرفة العامة، أثبتت المجسات فعاليتها، بل وتجاوزت أداء نماذج مكافأة العمليات التي يمكن أن تكون أكبر بـ 810 مرة.
تشير نتائج هذه الدراسة إلى أن الحالات الداخلية لنماذج اللغة الكبيرة تشفر ثقتها في عمليات التفكير، ويمكن أن تكون إشارات موثوقة للتحقق من خطوات التفكير، مما يتيح إمكانية واسعة لتوسيع اختبار الوقت وتطوير نماذج لغوية استبطانية.
ثورة جديدة في الذكاء الاصطناعي: تحسين أداء نماذج اللغة الكبيرة من خلال التحقق من خطوات التفكير الداخلية!
بحث جديد يكشف عن طريقة مبتكرة لتحسين قدرة نماذج اللغة الكبيرة (LLMs) على حل التحديات المعقدة عبر التحقق من خطوات التفكير. هذه الطريقة الفعالة توفر أداءً أعلى مع تكاليف أقل بكثير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
