تستمر التكنولوجيا في التطور بسرعة مذهلة، حيث تحقق نماذج اللغات الضخمة (Large Language Models) إنجازات مثيرة في مجال البرمجة. خاصةً مع التطورات الأخيرة التي جعلت من الممكن تطوير تطبيقات برمجية متقدمة تتعامل مع واجهات المستخدم الرسومية (Graphical User Interfaces - GUI).
ومع ذلك، لا تزال تقنيات تصحيح الأخطاء التقليدية تعاني من قيود ملحوظة. يعتمد معظمها على مخرجات نصية فقط، مما يجعل من الصعب التعامل مع التفاعلات المعقدة اللازمة في بيئات GUI. وقد تم تحديد مشكلتين رئيسيتين هنا:
1) التطبيقات الرسومية تعتمد على أحداث تفاعلية، مما يجعل الطرق الحالية غير قادرة على محاكاة التفاعل البشري مع العناصر الرسومية.
2) تتمتع هذه البرامج بخصائص بصرية تجعل من الصعب على الأساليب النصية تقييم دون النقد المكتوب، إذا كانت الواجهة تلبي احتياجات المستخدم أم لا.
لمعالجة هذه التحديات، تم تقديم معيار جديد يدعى InteractGUI Bench، والذي يتضمن 984 مهمة حقيقية للتطبيقات المكتبية، مما يسمح بتقييم دقيق لكل من منطق التفاعل والبنية البصرية.
وأكثر إثارة للدهشة هو النظام المطور حديثاً، VF-Coder، الذي يعمل كنظام متعدد الوكلاء معتمد على ردود الفعل البصرية. يتميز هذا النظام بقدرته على فهم المعلومات البصرية والتفاعل المباشر مع واجهات البرامج، مما يمكّنه من تحديد المشكلات المتعلقة بالمنطق والتصميم بشكل مشابه للبشر.
أظهرت التجارب على معيار InteractGUI Bench أن نظام VF-Coder قد عزز من معدل نجاح Gemini-3-Flash من 21.68% إلى 28.29%، كما رفع نقاط التقييم البصرية من 0.4284 إلى 0.5584، مما يبرز فعالية التأثير البصري في تصحيح الأخطاء في تطبيقات GUI.
برمجة بتقنية الرؤية: كيفية فتح ردود الفعل البصرية آفاقاً جديدة في توليد وتصحيح الشفرات الرسومية
شهدت الآونة الأخيرة تقدمًا ملحوظًا في تقنية البرمجة باستخدام نماذج اللغات الضخمة (LLM) بفضل تطوير نظام جديد يدعى VF-Coder. هذا النظام يعتمد على التغذية الراجعة البصرية لتصحيح الأخطاء في واجهات المستخدم الرسومية (GUI)، مما يزيد من فعالية التصحيح بشكل كبير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
