أصبح الذكاء الاصطناعي جزءًا لا يتجزأ من حياتنا اليومية، ومع مرور الوقت، تطورت نماذج اللغة الكبيرة (Large Language Models) لتصبح وكلاء مستقلين تقوم بإنجاز المهام إلكترونيًا. ولكن، في خضم هذا التطور، برزت قضيتان هامتان تتعلقان بأمان هذه الأنظمة ومهاراتها المتاحة.
تتضمن دراسة حديثة حول "مهارات الضارة" (Harmful Skills) معالجة مفصل لنحو 98,440 مهارة من السجلات الكبرى، حيث بينت النتائج أن 4.93% من هذه المهارات تعود إلى تصنيفات ضارة، مما يشير إلى إمكانيات خطيرة قد تؤدي إلى هجمات إلكترونية، احتيال، انتهاكات خصوصية، وتوليد محتوى غير لائق.
أظهرت النتائج أن منصة ClawHub سجلت نسبة مهارات ضارة تصل إلى 8.84%، بينما كانت النسبة على Skills.Rest حوالي 3.49%. بناءً على تلك النتائج، تم تطوير معيار جديد يسمى HarmfulSkillBench، وهو المعيار الأول من نوعه لتقييم سلامة الوكلاء في سياقات العمل الحقيقية ضد المهارات الضارة. هذا المعيار يضم 200 مهارة ضارة موزعة على 20 فئة و4 ظروف تقييمية.
عند تقييم ستة نماذج للغة باستخدام هذا المعيار، تبيّن أن تقديم مهمة ضارة عبر مهارة مثبتة مسبقًا يقلل بشكل كبير من معدلات الرفض، حيث ارتفع متوسط درجة الضرر من 0.27 دون استخدام المهارة إلى 0.47 عند استخدامها، ليرتفع إلى 0.76 عندما تكون النية الضارة ضمنية وليس معلنة.
استجابةً لهذه المشكلات، تم الكشف عن النتائج إلى السجلات المعنية وإصدار هذا المعيار لدعم الأبحاث المستقبلية في هذا المجال، مما يجعلنا نتساءل: كيف يمكننا حماية أنفسنا ومجتمعاتنا من هذه المخاطر المحتملة؟ هل أنتم مستعدون لمناقشة هذه التحديات؟ شاركونا آراءكم في التعليقات!
هل تسلح المهارات الضارة وكلاء الذكاء الاصطناعي؟ اكتشفوا ذلك الآن!
تظهر الدراسة الحديثة أن 4.93% من المهارات المتاحة في أنظمة الذكاء الاصطناعي قد تكون ضارة. كما تم تطوير معيار جديد لتقييم سلامة الوكلاء ضد هذه المهارات الضارة.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
