🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

رحلة التأخر الطويل نحو التعميم الحسابي: كيف تسبق التمثيلات المكتسبة الأداء الفعلي؟

تتناول هذه الدراسة مسألة التأخر الطويل في التعميم الحسابي في نماذج التحويلات، موضحة كيف يعكس هذا التأخر وصولاً محدوداً للبنية المكتسبة. نتائج مثيرة تشير إلى دور قواعد الأرقام في تحسين الأداء العام.

في عالم الذكاء الاصطناعي، يعاني الباحثون من ظاهرة مثيرة للفضول تُعرف بالتأخر الطويل في التعميم عند التعامل مع نماذج التحويلات (Transformers) التي تُدرّب على مهام خوارزمية. رغم أن هذه النماذج تحقق انضباطًا كبيرًا في مجموعة التدريب، إلا أن عملية التعميم الفعلية تأخذ وقتًا طويلاً وغير مفهومة تمامًا.

تتناول الدراسة الجديدة مسألة التأخر في التعميم، مُشيرةً إلى أن هذا التأخر مرتبط بالوصول المحدود إلى البنية المكتسبة بالفعل، بدلاً من فشل التعلم. من خلال دراسة تنبؤات كوللاتز (Collatz) الأحادية، تبيّن أن الهيكل الأساسي يتشكل بسرعة في خطوات التدريب الأولى، بينما يبقى دقة الناتج قريبة من الصدفة لآلاف الخطوات اللاحقة.

تدعم التدخلات السببية فرضية الاختناق في وحدة فك الشفرة، حيث أظهرت التجارب أنه عند زراعة مُشفِّر مدرب في نموذج جديد، يمكن تسريع عملية التعميم بمقدار 2.75 مرة. وفي المقابل، إلحاق مُفكِّك شيفرة مُدرّب يؤدي إلى نتائج سلبية.

عند تجميد المُشفِّر المُتقارب وإعادة تدريب مُفكِّك الشيفرة فقط، يتم القضاء على التوقف تمامًا، حيث تصل الدقة إلى 97.6% مقارنة بـ 86.1% في التدريب المشترك. وعلاوة على ذلك، يعتمد مدى سهولة أو صعوبة المهمة التي يقوم بها مُفكِّك الشيفرة على تمثيل الأرقام. عبر 15 نظامًا عدديًا، ثبت أن التمثيل الذي يتماشى مع خريطة كوللاتز (مثل القاعدة 24) يحقق دقة تصل إلى 99.8%، بينما فشلت القاعدة الثنائية تمامًا بسبب تدهور تمثيلها وعدم قدرتها على التعافي.

تُظهر هذه النتائج أن اختيار القاعدة العددية يعمل كتحيز استقرائي يحدد مدى قدرة مُفكِّك الشيفرة على استغلال الهيكل الرقمي المحلي، مما يؤدي إلى اختلافات كبيرة في قابلية التعلم من نفس المهمة الأساسية. هذه الاكتشافات تعزز فهمنا لكيفية عمل أنظمة الذكاء الاصطناعي وكيف يمكن تحسين أدائها بشكل أكبر.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة