في عالم يتزايد فيه الاهتمام بالصحة النفسية، بات من الضروري وجود أنظمة ذكية قادرة على تقييم مخاطر السلوك الانتحاري (Self-Harm Risks) بدقة وأمان. بحث حديث نشر في arXiv، يستعرض كيف يمكن استخدام أنظمة ذكاء اصطناعي متعددة الوكلاء، المعروفة أيضًا بنماذج اللغات الضخمة (Large Language Models)، لتحسين تقييم المخاطر النفسية.

تعتبر طرق التقييم التقليدية، مثل نموذج القاضي (LLM-as-a-judge)، غير كافية، حيث لا تعكس موثوقية القرارات أو كيفية تراكم الأخطاء عبر تقييمات متعددة. هنا يأتي دور الإطار الإحصائي الذي أُطلق عليه اصطلاح المجموعات الموجهة غير الدورية (DAGs)، والذي يقدم حلًا بديلاً من خلال اتخاذ قرارات مدروسة وتكيفية.

هذا البحث يقدم عدة استراتيجيات جديدة، تشمل:
1. حدود أداء موثوقة على مستوى الوكلاء.
2. استراتيجية أخذ العينات التكيفية المستندة إلى صعوبة المدخلات.
3. ضمانات حول احتمال الخطأ في النظام متعدد الوكلاء، مما يضمن نموًا لوغاريتميًا في الأخطاء عند التطبيق.

تم اختبار النظام الجديد على مجموعتين في مجال الصحة النفسية: مجموعة AEGIS 2.0 (عدد المشاركين: 161) ومجموعة منشورات Reddit المتعلقة بالصحة النفسية (عدد المشاركين: 250). أظهرت النتائج أن الاستراتيجية الجديدة حققت أدنى نسبة إيجابية خاطئة (False Positive Rate) مقارنة بالنماذج التقليدية، حيث وصلت إلى 0.095 على مجموعة AEGIS 2.0، مما يمثل تخفيضًا قدره 40% في العلم غير الدقيق بالمحتوى الآمن مع الحفاظ على معدلات سلبية خاطئة (False Negative Rates) مشابهة عبر جميع الحالات.

هذه النتائج تبرز كيف أن أخذ العينات التكيفية المدروسة يمكن أن تعزز الدقة دون التأثير على القدرة على الكشف، مما يشير إلى إمكانية تطوير أدوات أكثر فعالية لدعم الصحة النفسية.