في عالم الذكاء الاصطناعي حيث تتزايد الحاجة لتدريب نماذج تتفاعل بكفاءة مع البيانات المرئية واللغوية، يظهر VLA Foundry كحل مبتكر يجمع بين قدرات نماذج اللغة (LLM)، والرؤية (VLM)، والإجراء (VLA) في إطار واحد متكامل. هذه المنصة مفتوحة المصدر تُعتبر خطوة رائدة للباحثين والمطورين على حد سواء.
بدلاً من التركيز على مرحلة تدريب واحدة مثل العديد من الجهود السابقة، يُمكن VLA Foundry المستخدمين من الحصول على التحكم الكامل من التدريب المسبق للغة إلى التخصيص المتقدم لنماذج الإجراءات. يتم دعم التدريب من الصفر وكذلك استخدام نماذج مسبقة التدريب من Hugging Face، ما يسهل على المطورين البدء في مشاريعهم دون الحاجة لوضع قواعد معقدة.
لتوضيح فائدة هذا الإطار، قامت المجموعة بتدريب وإصدار نوعين من النماذج: الأول تم تدريبه بالكامل من الصفر عبر سلسلة تدريب LLM-->VLM-->VLA والثاني مُستند إلى نموذج Qwen3-VL المدرب مسبقاً. وقد أظهرت نتائج الاختبار على محاكي LBM Eval أن النموذج الذي تم تدريبه من الصفر يُعادل الأداء السابق الذي تم تحقيقه في نماذج مغلقة المصدر. وعلاوة على ذلك، فإن استخدام الهيكل المدرب مسبقاً Qwen3-VL قد أدى إلى أداء قوي في مهام معالجة متعددة، متجاوزاً النموذج الأساسي بمسافة كبيرة.
VLA Foundry ليست مجرد أداة، بل هي منصّة تدعو الجميع لاستغلال قدرات الذكاء الاصطناعي بطريقة جديدة وفعّالة، مما يتيح للباحثين والمطورين استكشاف آفاق جديدة في هذا المجال المتنامي.
لزيارة الوثائق والتفاصيل الكاملة، يمكنك الدخول إلى مستودع GitHub: [VLA Foundry GitHub](https://github.com/TRI-ML/vla_foundry) أو زيارة موقع المشروع للحصول على مقاطع فيديو توضيحية.
VLA Foundry: الإطار المتكامل لتدريب نماذج اللغة-الرؤية-الإجراء
تقدم VLA Foundry إطاراً مفتوحاً يدمج تدريب نماذج اللغة (LLM)، والرؤية (VLM)، والإجراء (VLA) في قاعدة بيانات موحدة. النظام يأتي مع تحسينات لسهولة الاستخدام، ويتيح المستخدمين من الاستفادة منه بكل سهولة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
