تزايد استخدام وكلاء البرمجة المعتمدين على الذكاء الاصطناعي (AI coding agents) بشكل كبير، ورغم ذلك، لم يكن لدينا فحص شامل حول كيفية استخدام الأشخاص لهذه الأدوات ومدى جدوى مخرجاتها في الممارسة العملية. هنا يبرز دور مشروع SWE-chat، الذي يمثل أول مجموعة بيانات واسعة النطاق تتضمن تفاعلات حقيقية لنماذج الوكلاء البرمجيين.

تحتوي مجموعة بيانات SWE-chat الحالية على 6,000 جلسة، تتضمن أكثر من 63,000 طلب مستخدم و355,000 استدعاء للأدوات من الوكلاء. وتُعتبر هذه المجموعة بيانات حية، إذ يتم اكتشاف ومعالجة الجلسات تلقائيًا من المستودعات العامة بشكل مستمر. من خلال تحليل SWE-chat، نتمكن من تقديم وصف أولي وواقعي لاستخدام وكلاء البرمجة وأنماط الفشل الممكنة.

الملاحظات الأولية تكشف عن نمطين متضادين في البرمجة: ففي 41% من الجلسات، يقوم الوكلاء بإنشاء معظم الأكواد المعتمدة (ما يعرف بـ "vibe coding")، بينما في 23% من الحالات، يقوم البشر بكتابة كافة الأكواد بأنفسهم. ورغم التحسينات السريعة في قدرات هذه الوكلاء، تبين أن أداؤها في بيئات العمل الطبيعي لا يزال يعاني من القصور. فقد 44% من الأكواد المنتجة بواسطة الوكلاء لم ينجح في التحول إلى التزامات من قبل المستخدمين، كما أن الأكواد التي يكتبها الوكلاء تؤدي إلى المزيد من الثغرات الأمنية مقارنة بتلك التي يكتبها البشر.

علاوة على ذلك، يقوم المستخدمون بالتصحيح أو الإبلاغ عن الأخطاء بمعدل 44% من جميع التفاعلات، مما يظهر مدى الحاجة إلى التحسين في أداء الوكلاء. من خلال التقاط تفاصيل التفاعل الكامل مع نسب تأليف الكود بين الإنسان والوكيل، توفر SWE-chat أساسًا تجريبيًا للانتقال من المعايير المنسقة نحو فهم مدعوم بالأدلة حول كيفية أداء وكالات الذكاء الاصطناعي في سير العمل الفعلي للمطورين.

هذا البحث يمثل خطوة مهمة نحو تحسين كيفية استخدام أدوات الذكاء الاصطناعي في بيئات البرمجة، فهل أنتم متحمسون لرؤية ما ستسفر عنه مثل هذه الدراسات في المستقبل؟ شاركونا آرائكم في التعليقات!