# ثورة جديدة في الذكاء الاصطناعي: مكافآت داخلية باستخدام المراكز الانتروبية!

مقدمة


في عالم الذكاء الاصطناعي، تتزايد الحاجة إلى تحسين أداء النماذج اللغوية الكبيرة (Large Language Models) في وقت الاختبار. يطرح البحث الجديد أسلوبًا ثوريًا يعتمد على استخدام **المراكز الانتروبية** (Entropy Centroids) كمكافآت داخلية، وهو ما يعد نقلة نوعية في كيفية تقييم النماذج.

خلفية البحث


تزايد الاعتماد على نماذج مثل **Grok Heavy** و**Gemini Deep Think** يتطلب عطاء استجابات متعددة ثم انتقاء الأفضل بينها. معظم الطرق الحالية تعتمد على نماذج مكافآت خارجية، مما يستلزم تدريب نماذج قوية ويزيد من عبء الحسابات. لكن ما الجديد هنا؟

الفكرة المبتكرة


يقوم الباحثون في هذا العمل بدراسة المفاهيم الداخلية مثل **الثقة** و**الانتروبي**، حيث يلاحظون أن التوكنات ذات الانتروبي العالي تميل إلى التجمع في مجموعات متسلسلة، مما يوفر مؤشرات أكثر استقرارًا حول عدم اليقين في النماذج. وبالتالي، يُستخدم الهيكل الزمني لعدم اليقين كمكافأة داخلية.

وحدات عدم اليقين


تم تعريف الوحدة الأساسية لعدم اليقين على مستوى المقطع بـ **مرحلة الانتروبي العالية** (High Entropy Phase - HEP)، التي تبدأ من توكن عالي الانتروبي وتنتهي عند ظهور توكنات منخفضة الانتروبي متتالية.

المراكز الانتروبية


نتبين من هذا العمل أن **المركز الانتروبي** يمثل المتوسط الموزون لجميع HEPs على طول المسار، مما يشير إلى الجودة المحتملة للاستجابة. فعندما يكون المركز الانتروبي منخفضًا، فإنه يدل على استكشاف مبكر يتبعه إنتاج موثوق، وهو ما يحقق تحسينات ملموسة.

التسابق إلى القمة


يعتمد الباحثون أسلوب **المركز الأدنى** (Lowest Centroid) الذي يختار الاستجابة التي تمتلك أدنى مركز انتروبي من بين المرشحين المتعددين، مما يحقق نتائج أفضل بشكل متسق.

التجارب والأدلة


أظهرت التجارب عبر مجموعة من المواضيع مثل الرياضيات وتوليد الأكواد والمهام المنطقية أن أسلوب Lowest Centroid يتفوق بشكل مستمر على المعايير الحالية، مما يدعم فرضيتهم مع زيادة حجم النماذج.

الختام


هذا البحث يفتح آفاق جديدة لتحسين نماذج الذكاء الاصطناعي من خلال مقاربات مبتكرة لمكافآت داخلية. هل تعتقد أن هذه الأساليب ستحدث ثورة في كيفية تطوير نماذج الذكاء الاصطناعي في المستقبل؟