ثورة في تعلم السياسات الذكية: اكتشف كيف تعزز ExpertGen نقل المعرفة من المحاكاة إلى الواقع!

مع تزايد الاعتماد على الروبوتات في مجالات متعددة، أصبح تعلم السياسات القابلة للتعميم والموثوقة ضرورة ملحة. ولكن، كيف يمكننا الحصول على بيانات ذات جودة عالية دون تكاليف باهظة أو الحاجة إلى التدخل البشري المكثف؟ هنا تأتي الحلول المبتكرة!

تقدم لنا تقنية ExpertGen، إطار عمل جديد يهدف إلى أتمتة تعلم السياسات الخبيرة في بيئة المحاكاة. يعتمد هذا الأسلوب على استغلال البيانات من سلوكيات غير مثالية، سواء كانت هذه البيانات مستنبطة من نماذج لغوية كبيرة (Large Language Models) أو مقدمة من قبل البشر.

تبدأ العملية بتهيئة سلوك سابق يعتمد على سياسة نشر تعلّمت من هذه الأمثلة غير المثالية. ثم، يتم استخدام التعلم المعزز (Reinforcement Learning) لتعديل هذا السلوك نحو تصحيح النتائج عالية النجاح عن طريق تحسين الضوضاء الأولية في نموذج النشر، مع إبقاء السياسة الأصلية ثابتة. هذا الأسلوب ليس فقط يحافظ على سلوك يشبه الإنسان بل يفتح أيضًا المجال للتعلم الفعّال حتى مع وجود مكافآت نادرة.

الوضع التجريبي الذي أجري على معايير صعبة في مجالات المناولة أظهر أن ExpertGen ينتج سياسات خبيرة عالية الجودة بدون الحاجة إلى هندسة المكافآت، محققًا معدل نجاح يصل إلى 90.5% في مهام التجميع الصناعية، و85% في المهام الطويلة الأمد. كما أن السياسات الناتجة تتميز بالتحكم الفني وتبقى قوية عبر تكوينات واجهت تحديات مختلفة.

وفي خطوة مهمة للتحقق من عملية النقل من المحاكاة إلى الواقع، تم تحويل السياسات المستندة إلى الحالة إلى سياسات بصريّة حركية باستخدام تقنية DAgger، وتمت تجربتها بنجاح على أجهزة الروبوت الحقيقية.

إن التطورات المستمرة في مجال تعلم السياسات الخبيرة تفتح آفاقاً جديدة غير مسبوقة، ولكن كيف ترى مستقبل هذه التكنولوجيا في حياتنا اليومية؟

ثورة في تعلم السياسات الذكية: اكتشف كيف تعزز ExpertGen نقل المعرفة من المحاكاة إلى الواقع!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

ثورة جديدة في عالم الإعلانات: جوجل تدمج الإعلانات في مساعدها الذكي Gemini!

ثورة جديدة في الذكاء الاصطناعي: تقييم استخدام الذاكرة الاستراتيجية في حوارات الشخصيات الافتراضية

مفاجأة في عالم السيارات الذاتية: استجابة الطوارئ تكتشف تدهور تقنيات وايمو