# ثورة في تصميم المطالبات: كيف تؤثر تلميحات التصحيح على أداء GPT-5.4؟

في عالم الذكاء الاصطناعي، حيث تتقاطع النماذج اللغوية مع المعايير الفلسفية والمتطورة، أُجريت دراسة جديدة تكشف عن نمط أخطاء قابل للتكرار في نموذج GPT-5.4 خلال استفسارات الالتزام بـ OWL~2~DL.

مفاجآت في نتائج النموذج



تشير النتائج إلى أن النموذج يميل إلى إعطاء إجابة "غير معروف" في الحالات التي ينبغي أن تكون فيها الإجابة "لا"، خاصةً في ظل وجود خاصية وظيفية أو عند تداخل الفئات. وقد تم استخدام 180 استفساراً تم تدقيقها بواسطة المعالج وتوزيعها بين استفسارات يدوية من مجالين مختلفين، التأمين والعيادات، لوضع مقارنة بين أربعة أنماط تفاعلية ضمن ميزانية استفسارات متساوية:
- **الإجابة المفردة (Single-shot)**
- **إعادة المحاولة العامة ثلاث مرات (Generic retry)**
- **إصلاح الحكم مع تلميح الافتراض المفتوح ثلاث مرات (Reasoner-verdict repair)**
- **الإصلاح بدون تلميح (Verdict-only)**

النتائج المتنوعة



تُظهر النتائج أن:
- **الإجابة المباشرة** كانت دقتها 43.9%.
- **إعادة المحاولة العامة** وصلت دقتها إلى 81.7%.
- **الإصلاح مع التلميح** كان أسوأ بنسبة 67.2%.
- **الإصلاح فقط** حقق نسبة مذهلة بلغت 97.8%.

كل المقارنات كانت ذات دلالة إحصائية تحت اختبار McNemar بتصحيح Bonferroni. وبهذا، يبدو أن الإطار المستخدم في المطالبات يؤثر بشكل أكبر من المحتوى التصحيحي ذاته.

دور المعالجات في الأداء



توضح هذه الدراسة أن كيفية صياغة المطالبات قد تكون أكثر أهمية من المحتوى التصحيحي، مما يفتح الباب لمزيد من الأبحاث حول كيفية تحسين الأداء في نماذج الذكاء الاصطناعي.

**هل سبق لك أن واجهت مثل هذه المشكلات في تفاعل مع نماذج AI؟ شاركنا تجربتك!**