مع تزايد الاعتماد على الروبوتات في مجالات متعددة، أصبح تعلم السياسات القابلة للتعميم والموثوقة ضرورة ملحة. ولكن، كيف يمكننا الحصول على بيانات ذات جودة عالية دون تكاليف باهظة أو الحاجة إلى التدخل البشري المكثف؟ هنا تأتي الحلول المبتكرة!

تقدم لنا تقنية ExpertGen، إطار عمل جديد يهدف إلى أتمتة تعلم السياسات الخبيرة في بيئة المحاكاة. يعتمد هذا الأسلوب على استغلال البيانات من سلوكيات غير مثالية، سواء كانت هذه البيانات مستنبطة من نماذج لغوية كبيرة (Large Language Models) أو مقدمة من قبل البشر.

تبدأ العملية بتهيئة سلوك سابق يعتمد على سياسة نشر تعلّمت من هذه الأمثلة غير المثالية. ثم، يتم استخدام التعلم المعزز (Reinforcement Learning) لتعديل هذا السلوك نحو تصحيح النتائج عالية النجاح عن طريق تحسين الضوضاء الأولية في نموذج النشر، مع إبقاء السياسة الأصلية ثابتة. هذا الأسلوب ليس فقط يحافظ على سلوك يشبه الإنسان بل يفتح أيضًا المجال للتعلم الفعّال حتى مع وجود مكافآت نادرة.

الوضع التجريبي الذي أجري على معايير صعبة في مجالات المناولة أظهر أن ExpertGen ينتج سياسات خبيرة عالية الجودة بدون الحاجة إلى هندسة المكافآت، محققًا معدل نجاح يصل إلى 90.5% في مهام التجميع الصناعية، و85% في المهام الطويلة الأمد. كما أن السياسات الناتجة تتميز بالتحكم الفني وتبقى قوية عبر تكوينات واجهت تحديات مختلفة.

وفي خطوة مهمة للتحقق من عملية النقل من المحاكاة إلى الواقع، تم تحويل السياسات المستندة إلى الحالة إلى سياسات بصريّة حركية باستخدام تقنية DAgger، وتمت تجربتها بنجاح على أجهزة الروبوت الحقيقية.

إن التطورات المستمرة في مجال تعلم السياسات الخبيرة تفتح آفاقاً جديدة غير مسبوقة، ولكن كيف ترى مستقبل هذه التكنولوجيا في حياتنا اليومية؟