في عالم الذكاء الاصطناعي المتقدم، تزداد أهمية تطوير نماذج لغوية متعددة الوسائط (Multimodal Large Language Models) تلبي احتياجات السلامة في البيئات التفاعلية بشكل فعال. تؤكد الأبحاث الحديثة أن قدرة هذه النماذج على التعامل مع مخاطر السلامة تظل غير كافية، مما يستدعي تدخلًا عاجلاً. هنا يأتي دور مشروع SafetyALFRED.

SafetyALFRED هو نظام مبتكر يعتمد على معيار وكيل تمثيلي يحمل اسم ALFRED، حيث تمت إضافته إلى ست فئات من المخاطر المحتملة في المطابخ الواقعية. غالبية التقويمات الحالية للسلامة تركز على التعرف على المخاطر ضمن إعدادات استجابة الأسئلة (Question Answering) غير المتصلة بالجسد، ولكن SafetyALFRED يختلف من خلال تقييمه لعدة نماذج رائدة من عائلات Qwen وGemma وGemini.

تظهر نتائج الاختبارات أن هناك فجوة ملحوظة في القدرة على معالجة المخاطر، حيث تستطيع النماذج التعرف بدقة على المخاطر في إعدادات الأسئلة، لكن نسب النجاح في التقليل من هذه المخاطر تبقى منخفضة. هذه النتائج تشير إلى أن التقييمات الثابتة عبر الأسئلة غير كافية لضمان السلامة الجسدية، مما يدعو إلى ضرورة تغيير المعايير لتصبح أكثر تركيزًا على الإجراءات التصحيحية ضمن السياقات الجسدية.

ولتسهيل البحث وتطوير هذا المجال، تم إطلاق كود المشروع ومجموعة البيانات الخاصة به عبر الرابط المتاح في GitHub. إن التحول في النهج نحو تقييمات تشمل الإجراءات الصحيحة يعتبر خطوة حيوية لأمان الذكاء الاصطناعي ودعوة للتفكير النقدي في كيفية العمل بأمان في بيئات تفاعلية.