في عالم الذكاء الاصطناعي، يمثل ظهور نماذج اللغات الضخمة (Large Language Models) خطوةً هامة نحو تطوير تفاعلات أكثر تعقيداً وواقعية. ومن بين هذه التطورات، تم تقديم معيار جديد يُدعى DialToM، الذي يهدف إلى تقييم قدرات نماذج الذكاء الاصطناعي في فهم "نظرية العقل" (Theory of Mind)، وهي القدرة على تقدير الحالة النفسية للآخرين.
يستند معيار DialToM إلى حوارات طبيعية تم التحقق منها من قبل البشر، ويستخدم إطار عمل متعدد الخيارات لتقييم التنبؤ بالحالات النفسية (Literal ToM) بالإضافة إلى الفائدة الوظيفية لهذه الحالات (Functional ToM) من خلال التنبؤ التشخيصي المستقبلي (Prospective Diagnostic Forecasting). يهدف البحث إلى فحص ما إذا كانت النماذج قادرة على التعرف على مسارات الحوار المتسقة مع الحالة النفسية فقط من خلال الملفات التعريفية للحالة العقلية.
تكشف النتائج عن عدم توازن واضح في مهارات التفكير؛ حيث تُظهر نماذج اللغات الضخمة قدرة كبيرة على تحديد الحالات النفسية، لكن معظمها (باستثناء نموذج Gemini 3 Pro) تفشل في استخدام هذا الفهم للتنبؤ بمسارات الحوار الاجتماعية. بالإضافة إلى ذلك، يظهر البحث تشابهات معنوية ضعيفة بين الاستنتاجات التي تنتجها النماذج البشرية وتلك الناتجة عن نماذج الذكاء الاصطناعي.
لتسهيل إعادة الإنتاج، تم توفير مجموعة بيانات DialToM وكود التقييم للجمهور عبر الرابط: [https://github.com/Stealth-py/DialToM]. بهذه الطريقة، يمكن للباحثين اختبار هذه النماذج وسبر أغوار إمكانياتها في فهم العقل وتفاعلات الحوار.
ما رأيكم في تطور الذكاء الاصطناعي بهذا الاتجاه؟ شاركونا في التعليقات!
DialToM: معيار جديد لفهم العقل في حوارات الذكاء الاصطناعي!
تم تقديم معيار DialToM الذي يركز على فهم حالة العقل، وهو يفتح آفاقاً جديدة لفحص تفاعلات الحوار في نماذج اللغات الضخمة. يستعرض البحث قدرات هذه النماذج في التنبؤ بسلوكيات الحوار المعتمدة على الحالات النفسية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
