ثورة جديدة في الذكاء الاصطناعي: نموذج Nemotron 3 Super المذهل لمعالجة التفكير الوكلي!
تقدم Nemotron 3 Super نموذجًا هجينيًا متطورًا يجمع بين تقنية Mixture-of-Experts و Mamba-Attention، مما يتيح أداءً فائقًا في معالجة البيانات. مع دعمه لمدى سياقي يصل إلى مليون، يمثل هذا النموذج قفزة نوعية في دقة وسرعة الاستدلال.
في خطوة جديدة نحو تطوير نماذج الذكاء الاصطناعي، قام الباحثون بالكشف عن نموذج **Nemotron 3 Super** الذي يتميز بتقنية هجينة مبتكرة تعتمد على **Mixture-of-Experts** (اختلاط الخبراء) و**Mamba-Attention**.
يتضمن هذا النموذج الرائد 120 مليار معلمة، مع إمكانية استخدام 12 مليار معلمة فقط بشكل نشط، مما يجعل منه أداة قوية للتعامل مع البيانات الضخمة. ولأول مرة، تم تدريب Nemotron 3 Super باستخدام نظام **NVFP4**، الذي يحسن بشكل ملحوظ من كفاءة النموذج.
كما أضاف الباحثون بنية جديدة تُعرف بـ **LatentMoE**، والتي تعمل على تحسين الدقة بالنسبة لوحدة المعالجة (FLOP) و دقة كل معلمة، مما يعزز من أداء النموذج في المهام المعقدة. هذا بالإضافة إلى استخدام طبقات **MTP** لتسريع الاستدلال عبر **speculative decoding**، مما يسمح للنموذج بتحقيق سرعات استدلال عالية.
تم تدريب النموذج على 25 تريليون توكن، تليه عملية تدريب نهائية تعتمد على التقنيات التقليدية مثل **Supervised Fine-Tuning (SFT)** و**Reinforcement Learning (RL)**. ونتيجة لهذا، يدعم النموذج مدى سياقي يصل إلى مليون عنصر، ويحقق دقة تنافسية ممتازة عند مقارنته بمعايير الأداء الشائعة.
وبحسب البيانات، فإن Nemotron 3 Super يعد أسرع بأكثر من 2.2 ضعف و7.5 ضعف في مجمل الأداء مقارنة بنماذج **GPT-OSS-120B** و**Qwen3.5-122B** على التوالي.
وما يزيد من روعة هذا الإنجاز هو أن البيانات والنماذج الخاصة بـ Nemotron 3 Super ستكون متاحة بشكل مفتوح على **HuggingFace**، مما يتيح للباحثين والمطورين الوصول إليها والاستفادة منها.
لمزيد من المعلومات حول كيفية تأثير هذه التقنية على المستقبل، نحن ننتظر أن نسمع آرائكم: كيف ترون تأثير Nemotron 3 Super على مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!
يتضمن هذا النموذج الرائد 120 مليار معلمة، مع إمكانية استخدام 12 مليار معلمة فقط بشكل نشط، مما يجعل منه أداة قوية للتعامل مع البيانات الضخمة. ولأول مرة، تم تدريب Nemotron 3 Super باستخدام نظام **NVFP4**، الذي يحسن بشكل ملحوظ من كفاءة النموذج.
كما أضاف الباحثون بنية جديدة تُعرف بـ **LatentMoE**، والتي تعمل على تحسين الدقة بالنسبة لوحدة المعالجة (FLOP) و دقة كل معلمة، مما يعزز من أداء النموذج في المهام المعقدة. هذا بالإضافة إلى استخدام طبقات **MTP** لتسريع الاستدلال عبر **speculative decoding**، مما يسمح للنموذج بتحقيق سرعات استدلال عالية.
تم تدريب النموذج على 25 تريليون توكن، تليه عملية تدريب نهائية تعتمد على التقنيات التقليدية مثل **Supervised Fine-Tuning (SFT)** و**Reinforcement Learning (RL)**. ونتيجة لهذا، يدعم النموذج مدى سياقي يصل إلى مليون عنصر، ويحقق دقة تنافسية ممتازة عند مقارنته بمعايير الأداء الشائعة.
وبحسب البيانات، فإن Nemotron 3 Super يعد أسرع بأكثر من 2.2 ضعف و7.5 ضعف في مجمل الأداء مقارنة بنماذج **GPT-OSS-120B** و**Qwen3.5-122B** على التوالي.
وما يزيد من روعة هذا الإنجاز هو أن البيانات والنماذج الخاصة بـ Nemotron 3 Super ستكون متاحة بشكل مفتوح على **HuggingFace**، مما يتيح للباحثين والمطورين الوصول إليها والاستفادة منها.
لمزيد من المعلومات حول كيفية تأثير هذه التقنية على المستقبل، نحن ننتظر أن نسمع آرائكم: كيف ترون تأثير Nemotron 3 Super على مجال الذكاء الاصطناعي؟ شاركونا في التعليقات!
📰 أخبار ذات صلة
🤖
أبحاث
منصّة DeepER-Med: ثورة في البحث الطبي المعتمد على الأدلة مع الذكاء الاصطناعي الفعال
أركايف للذكاءمنذ 3 ساعة
🤖
أبحاث
GIST: ثورة في استخراج المعرفة متعددة الأنماط وتوجيه الأماكن باستخدام الذكاء الاصطناعي!
أركايف للذكاءمنذ 3 ساعة
🤖
أبحاث
ثورة في أنظمة التفاعل: عقود مراجعة المعتقدات المسجلة مسبقًا
أركايف للذكاءمنذ 3 ساعة