في عالم الطموحات العلمية، تمتلك نماذج اللغة الكبيرة (Large Language Models) إمكانيات مذهلة في مجال توليد الشفرات البرمجية. لكن، رغم هذه الإنجازات، لا يزال تقييم توليد كود الكم يتبع إجراءات محدودة تقتصر على أطر فردية، مما يعيق قدرة الباحثين على الفصل بين قدرات الذكاء الاصطناعي وفهمهم للأطر المستخدمة.
اليوم، نرحب بإطلاق QuanBench+، معيارًا موحدًا يجمع بين ثلاثة أطر رئيسية هي: Qiskit وPennyLane وCirq. يشتمل هذا المعيار على 42 مهمة متعلقة بالخوارزميات الكمية، تحليل البوابات، وإعداد الحالة.
تم تقييم النماذج من خلال اختبارات وظيفية قابلة للتنفيذ، حيث تم الإبلاغ عن معدلات Pass@1 وPass@5، مما يوفر رؤية دقيقة حول أداء النماذج المختلفة. كما تم استخدام طريقة قبول مبنية على تباين KL لتقدير النتائج الاحتمالية.
لكن ما يثير الاهتمام هو دراسة Pass@1 بعد إجراء إصلاحات استنادًا إلى التغذية الراجعة، حيث يمكن للنموذج تعديل الشفرة في حال حدوث أخطاء أثناء التشغيل أو ظهور إجابات غير صحيحة. ومن خلال هذا المعيار، تم تسجيل أعلى درجات لمعدل Pass@1 تصل إلى 59.5% في Qiskit، 54.8% في Cirq، و42.9% في PennyLane. بعد تطبيق الإصلاحات، ارتفعت هذه الدرجات لتصل إلى 83.3%، 76.2%، و66.7% على التوالي.
تظهر هذه النتائج تقدمًا واضحًا، ولكنها في الوقت نفسه تبرز أن توليد كود الكم بشكل موثوق عبر عدة أطر لا يزال خبرًا لم يُحل بالكامل، ويظل معتمدًا بشكل كبير على المعرفة المحددة بكل إطار.
لذا، كيف يمكن لمعايير جديدة مثل QuanBench+ أن تغير قواعد اللعبة في مجال الذكاء الاصطناعي وتوليد كود الكم؟ دعونا نحتفل بهذه التطورات ونناقش كيف يمكن أن تسهم في مستقبل البرمجة الكمية.
إطلاق QuanBench+: معيار موحد لتقييم توليد كود الكم باستخدام نماذج اللغة الكبيرة!
تقدم QuanBench+ معيارًا موحدًا يجمع بين عدة أطر لتوليد كود الكم، مما يمهد الطريق لفهم أعمق في هذا المجال المعقد. مع مهام متعددة تدعم التطورات، يعد هذا الإنجاز خطوة كبيرة نحو تحسين كفاءة الذكاء الاصطناعي في البرمجة الكمية.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
