تحديات تقييم سلامة نماذج الذكاء الاصطناعي: لماذا لا تكفي الطرق التقليدية؟
تظهر الأبحاث الجديدة أن تقييم سلامة النماذج التي تُعطى شخصيات معقدة يحتاج إلى أساليب متعددة. مما يبرز تباينًا كبيرًا في نقاط الضعف يعتمد على هيكل النموذج وطريقة التفعيل.
في عالم الذكاء الاصطناعي، تعتبر نماذج اللغات الضخمة (Large Language Models) حجر الزاوية في تطور تقنيات معالجة اللغة. ومع تخصيص هذه النماذج من خلال إدخال شخصيات (personas)، تتعرض التقييمات التقليدية للسلامة لمجموعة من التحديات.
الأبحاث الأخيرة التي تم نشرها على موقع arXiv أظهرت أن الاعتماد على طرق التقييم التقليدية، مثل الشخصيات المستندة إلى الطلبات (prompt-based personas)، لا يكفي لفهم معنى أعمق لمعالم سلامة هذه النماذج. فقد أظهرت النتائج أن استراتيجيات الطلب والتوجيه النشط تعكس انماط ضعف مختلفة تعتمد على هيكل النموذج.
تم فحص 5,568 حالة على أربعة نماذج قياسية من ثلاث عائلات معمارية، وأظهرت نتائج التصنيف في ما يتعلق بالتهديدات وجود توافق ملحوظ عبر الهياكل المعمارية، بينما وُجد أن نقاط ضعف التوجيه النشط تتفاوت بشدة ولا يمكن توقعها من التصنيفات المعتمدة على الطلب. على سبيل المثال، نموذج Llama-3.1-8B كان أكثر عرضة للتهديدات عند التوجيه النشط، بينما كانت نماذج Gemma-3-27B وQwen3.5 أكثر عرضة عند الاستخدام التقليدي.
من المثير للاهتمام أن هناك ما يُعرف بـ"مفارقة الشخصية الاجتماعية"، حيث أثبت نموذج Llama-3.1-8B أن شخصية ذات ضمير مفعم بالالتزام والود (P12) على الرغم من كونها الأكثر أمانًا في سياق الطلب، إلا أنها أظهرت أعلى معدلات تحفيز نشط للتهديدات. هذا التباين بين الأمن والتهديد يُظهر الحاجة إلى إطار أكثر تعقيدًا لاكتشاف نقاط الضعف في النماذج.
تتطلب نماذج الذكاء الاصطناعي الحديثة استراتيجية شاملة للتقييم تضم طرقًا متعددة للتأكد من سلامتها عبر مختلف البيئات والتطبيقات، مما يؤدي إلى تحسين أبسط الاستخدامات وأكثرها تخصيصًا في أنظمتنا.
الأبحاث الأخيرة التي تم نشرها على موقع arXiv أظهرت أن الاعتماد على طرق التقييم التقليدية، مثل الشخصيات المستندة إلى الطلبات (prompt-based personas)، لا يكفي لفهم معنى أعمق لمعالم سلامة هذه النماذج. فقد أظهرت النتائج أن استراتيجيات الطلب والتوجيه النشط تعكس انماط ضعف مختلفة تعتمد على هيكل النموذج.
تم فحص 5,568 حالة على أربعة نماذج قياسية من ثلاث عائلات معمارية، وأظهرت نتائج التصنيف في ما يتعلق بالتهديدات وجود توافق ملحوظ عبر الهياكل المعمارية، بينما وُجد أن نقاط ضعف التوجيه النشط تتفاوت بشدة ولا يمكن توقعها من التصنيفات المعتمدة على الطلب. على سبيل المثال، نموذج Llama-3.1-8B كان أكثر عرضة للتهديدات عند التوجيه النشط، بينما كانت نماذج Gemma-3-27B وQwen3.5 أكثر عرضة عند الاستخدام التقليدي.
من المثير للاهتمام أن هناك ما يُعرف بـ"مفارقة الشخصية الاجتماعية"، حيث أثبت نموذج Llama-3.1-8B أن شخصية ذات ضمير مفعم بالالتزام والود (P12) على الرغم من كونها الأكثر أمانًا في سياق الطلب، إلا أنها أظهرت أعلى معدلات تحفيز نشط للتهديدات. هذا التباين بين الأمن والتهديد يُظهر الحاجة إلى إطار أكثر تعقيدًا لاكتشاف نقاط الضعف في النماذج.
تتطلب نماذج الذكاء الاصطناعي الحديثة استراتيجية شاملة للتقييم تضم طرقًا متعددة للتأكد من سلامتها عبر مختلف البيئات والتطبيقات، مما يؤدي إلى تحسين أبسط الاستخدامات وأكثرها تخصيصًا في أنظمتنا.

