في عالم البرمجة الحديث، تعتبر الأدوات المعتمدة للتقييم دقيقة وأساسية للنجاح. ومع ذلك، أصبحت أداة SWE-bench Verified عرضة للانتقادات مؤخرًا. وفقًا لدراساتنا، فقد أظهرت هذه الأداة تلوثًا متزايدًا في البيانات وأسفرت عن نتائج غير دقيقة بشأن تقدم برمجة الحدود (frontier coding).
تحليلنا كشف النقاب عن عيوب وخطأ في الاختبارات المستخدمة، مما يحملنا على إعادة النظر في موثوقية SWE-bench Verified. لقد تبين أيضًا أن هناك تسربًا في أساليب التدريب، ما يعني أن النتائج ليست فقط مضللة، بل قد تؤدي أيضًا إلى اتخاذ قرارات خاطئة في تطوير البرمجيات.
لذا، نوصي بشدة بالتحول إلى SWE-bench Pro، الذي يعد خيارًا أكثر دقة وموثوقية في تقييم معلومات البرمجة. يتيح هذا النموذج للمطورين الحصول على تقييمات واضحة وشاملة تعكس واقع تقدمهم الفعلي.
إن التطور السريع في تقنيات البرمجة يتطلب أدوات تواكب هذا التغيير، وتكون دقيقة بما يكفي لمساعدتنا على التقدم في هذا المجال.
ما رأيكم في هذه التحديات التي تواجه أدوات التقييم؟ هل قمتم بتجربة SWE-bench Pro؟ شاركونا بأفكاركم وتجاربكم في التعليقات!
لماذا لم نعد نقيم SWE-bench Verified؟ اكتشف الفوضى في اختبارات برمجة الحدود!
تزايد تلوث بيانات SWE-bench Verified يؤدي إلى نتائج غير دقيقة في قياس تقدم البرمجة. تحليلنا يكشف عن اختبارات معيبة وتسرب في التدريب، مما يستدعي الاعتماد على SWE-bench Pro.
المصدر الأصلي:مدونة أوبن إيه آي
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
