في عالم الذكاء الاصطناعي القابل للتفسير (Explainable AI) ، تلعب قيم شابلي (Shapley Values) دورًا محوريًا. لكن الانتشار الواسع لهذه القيم في صيغ مختلفة أدّى لخلق مشهد مُجزأ يفتقر إلى التوافق العملي في التطبيق. على الرغم من توثيق الاختلافات النظرية بشكل جيد، إلا أن عملية التقييم لا تزال تعتمد على مؤشرات كمية لا تتوافق دائمًا مع ما تحتاجه الصياغة البشرية.
دراسة جديدة تكشف عن مشكلات أساسية
في دراسة جديدة، استخدم الباحثون إطارًا موحدًا للتحقق من الاختلافات الدلالية بين ثماني صيغ مختلفة من قيم شابلي، وأجريت هذه الدراسة داخل قيود زمنية منخفضة في بيئات المخاطر التشغيلية. أما الجزء الأكثر إثارة في البحث، فقد تمثل في إجراء تقييم تجريبي على نطاق واسع عبر أربعة مجموعات بيانات خاصة بالمخاطر، بالإضافة إلى بيئة للكشف عن الاحتيال تشمل محللين محترفين و3,735 مراجعة حالة.
نتائج مثيرة للانتباه
كشفت النتائج عن عدم توافق أساسي، حيث وجدت أن المقاييس الكمية القياسية، مثل الندرة والموثوقية، لم تتوافق مع وضوح القرارات المدرك من قبل البشر وفائدتها. كما أن البحث أظهر أنه بالرغم من عدم تحسين أي صيغة للأداء الموضوعي للمحللين، فإن الشروحات ساهمت باستمرار في زيادة ثقة القرار. وهذا يشير إلى خطر حاسم يتمثل في انحياز الأتمتة في سياقات المخاطر العالية.
الحاجة إلى تقييمات محسّنة
تؤكد هذه النتائج على أن المؤشرات الحالية غير كافية للتنبؤ بتأثيرات العملية البشرية اللاحقة، وتوفر توجيهات قائمة على الأدلة لاختيار الصيغ والمقاييس في أنظمة اتخاذ القرار التشغيلية.
كيف يمكننا تحسين التقييمات؟
ما هي الخطوات التي يمكن اتخاذها لتطوير تقييمات أكثر فعالية وموثوقية في الذكاء الاصطناعي القابل للتفسير؟
