في عالم الذكاء الاصطناعي المتقدم، يعد فهم كيفية عمل نماذج اللغة (Language Models) خطوة حيوية نحو تحسين أدائها وتطويرها. ولقد أظهرت دراسة حديثة، أشرف عليها باحثون من عدة دول، أن هذه النماذج لا يمكن أن تكون عشوائية بشكل كامل.
ما هو Entropic Deviation؟
تقدم الدراسة مفهوم "الانحراف الانتروبي" (Entropic Deviation - ED)، الذي يُعتبر مقياسًا دقيقًا للاختلاف بين توزيع رموز النموذج وتوزيع رموز موحد. وقد تمت دراسة هذا المفهوم عبر 31,200 توليد، تشمل سبعة نماذج، وهياكل عمل مختلفة مثل التحويل (Transformer) ومساحة الحالة (State Space).
النتائج الرئيسية
أظهرت النتائج أن النماذج التحويلية لا تزال تُظهر انحرافًا انتروبيًا قيمته حوالي 0.30 حتى عند استخدام نوافذ محايدة دلاليًا. وهذا يعني أن بين 88-93% من عدم العشوائية الموجود هو جزء جوهري من الوزن المُتعلم. كما أنه تم إيجاد أن ثلاث عائلات من النماذج (Gemma، Llama، Qwen) تتقارب على قيم مشابهة من ED رغم اختلاف بيانات التدريب والمفردات.
نموذج مساحة الحالة
كما أظهرت نتائج النموذج Space Model (Mamba2) نمط مختلف نوعياً، حيث كان لديه انحراف انتروبي مرتفع مرتين مقارنة بالتحويليين، مع تقلب أقل داخل تسلسل الرموز. ولقد كان لهذا النموذج حساسية كبيرة تجاه درجة الحرارة (temperature) في حين أن التحويلية كانت قريبة من المناعة.
أهمية التجارب متعددة اللغات
تظهر التجارب عبر لغات متعددة مثل الإنجليزية واليابانية والصينية والبولندية والعربية وجود تدرج مستقر يؤكد أن اللغات تؤثر بشكل مستقل على اللات randomness.
ما وراء النتائج
تعتبر هذه النتائج حجر الزاوية في فهم حدود عدم العشوائية في نماذج اللغة المدربة مسبقًا، وتبرز كيفية اختلاف هذه الحدود بين الهياكل المختلفة.
دعوة للتفاعل
ما رأيك في التأثيرات التي ستحدثها هذه النتائج على تطوير نماذج اللغة المستقبلية؟
