في عالم التعليم الحديث، أصبح تصحيح المقالات آليًا (Automated Essay Scoring - AES) أحد الأدوات الفعالة التي تُستخدم لتقييم الكتابة. يعتمد تقييم هذه الأنظمة عادةً على مؤشرات مثل معامل كابا الموسع التربيعي (Quadratic Weighted Kappa - QWK). ولكن السؤال المركزي هنا: هل حقق تصحيح المقالات آليًا دقة كافية ليكون خيارًا موثوقًا؟

تَظهر مشكلة كبيرة عند تقييم أداء أنظمة التصحيح الآلي، إذ يعتمد الكثير منها على بيانات عُيّنت بواسطة مصححين بشريين تحتوي بطبيعة الحال على أخطاء في تقييم الدرجات. لذا، هناك حاجة ضرورية لرؤية واضحة حول الحدود theoretical لمؤشر QWK الذي يمكن تحقيقه من قبل نماذج التصحيح الآلي، وما هو المستوى الكافي لاستخدامها في التطبيقات العملية.

قمنا باشتقاق حدين محددين لمؤشر QWK بناءً على مفهوم الموثوقية في نظرية الاختبار الكلاسيكية. أولهما هو الحد النظري؛ وهو أقصى QWK يمكن أن يحققه نموذج التصحيح الآلي المثالي الذي يتنبأ بدقة بالدرجات الحقيقية في ظل وجود ضجيج في العلامات. أما الثاني فهو الحد الشبيه بالبشر، الذي يعكس مستوى QWK الذي يمكن أن يُحققه نموذج التصحيح الآلي الذي يرتكب أخطاء مشابهة لتلك التي يرتكبها المصحح البشري، مما يوفر هدفًا عمليًا طموحًا.

الأبحاث والتجارب التجريبية تدعم الحدود المقترحة وتوضح كيف يتم توضيح الأداء الحالي ومقدار التحسينات الممكنة لنماذج التصحيح الآلي.

إذاً، كيف يمكن أن تؤثر هذه الاكتشافات على مستقبل تصحيح المقالات آليًا؟ وهل ترون أن هذه النماذج ستحل محل المصححين البشر في المستقبل؟