في عالم تصميم الهاردوير، يعد تصحيح الأخطاء من بين أهم المهام التي تواجه المهندسين. ولقد كان قياس أداء نماذج اللغات الضخمة (Large Language Models) في هذا السياق تحدياً كبيراً، حيث كانت المعايير الحالية تركز بشكل أساسي على المهام المعزولة مثل توليد وحدات HDL من المواصفات. هنا يأتي دور HWE-Bench، المعيار الجديد الذي يعد الأول من نوعه لتقييم هؤلاء الوكلاء في مهام تصحيح الأخطاء الهاردويرية في بيئات حقيقية.
يحتوي HWE-Bench على 417 مهمة مستمدة من عمليات تصحيح الأخطاء التاريخية عبر ستة مشاريع مفتوحة المصدر رئيسية تشمل كل من Verilog ومعمارية SystemVerilog. هذه المهام تغطي نطاقات واسعة تشمل نوى RISC-V، وأنظمة SoCs، والعناصر الأمنية. كل مهمة لها سياقها الخاص، حيث يحتاج الوكيل إلى حل تقارير الأخطاء الحقيقية، مع التحقق من دقة الحلول من خلال محاكاة وتجارب المشروع الأصلية.
ما يميز HWE-Bench هو قدرته على التوسع بفعالية بفضل خطوط الإنتاج الآلية الكثيرة التي تعتمد عليها، مما يسهل إضافة مستودعات جديدة. في تقييمنا، اختبرنا سبعة نماذج لغوية مع أربعة أطر للوكالات، ووجدنا أن أفضل الوكلاء يتمكن من حل 70.7% من المهام العامة. بينما كانت الأداءات في المهام المعقدة أكثر تحدياً، حيث انخفضت النسبة إلى أقل من 65% في مشاريع SoC المعقدة.
هذه النتائج تبرز الفجوة الكبيرة في الأداء بين النماذج، وهي أكبر من المتوقع بناءً على المعايير البرمجية المتعارف عليها. وقد أظهرت التحليلات أن التحدي لا يكمن في حجم الكود فقط، بل في نطاق المشروع وتوزيع أنواع الأخطاء. كما أظهرت التحليلات أن الفشل ينجم عن ثلاث مراحل في عملية تصحيح الأخطاء: تحديد الأماكن الخاطئة، التفكير الدلالي للهاردوير، والتنسيق عبر العناصر المتعددة.
إن هذه النتائج توفر إرشادات واضحة لتطوير وكلاء أكثر قدرة وفهمًا على خصائص الهاردوير، مما يسهم في تحسين فعالية التصحيح وزيادة الابتكار في المجال.
HWE-Bench: تطور بارز في قياس أداء وكلاء نماذج اللغات الضخمة في تصحيح أخطاء الهاردوير!
نقدم لكم HWE-Bench، الأول من نوعه في قياس أداء وكلاء نماذج اللغات الضخمة (LLMs) في مهام تصحيح الأخطاء الهاردويرية. يتألف هذا المعيار من 417 مهمة مستمدة من مشاريع مفتوحة المصدر، مما يُعزِّز دقة الأداء والابتكار في هذا المجال.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
