مع التزايد الهائل في حجم البيانات التي يتم استخدامها في تدريب نماذج الذكاء الاصطناعي، أصبحت الحاجة لاختيار مجموعة صغيرة وذات جودة عالية من هذه البيانات أمراً حيوياً. فمع وجود عشرات الملايين من نقاط البيانات، يصبح التحسين الكامل للنماذج باهظ الكُلفة وغالباً غير ضروري. ومن هنا، جاءت تقنية CRAFT (Clustered Regression for Adaptive Filtering of Training Data) لتحدث تحولاً كبيراً في هذا المجال.
كيفية عمل CRAFT
تستخدم CRAFT طريقة مبتكرة لاختيار البيانات من خلال تقسيم التوزيع المشترك بين المصدر والهدف. تتضمن هذه الطريقة مرحلتين رئيسيتين:
1. **تخصيص الميزانية بشكل متناسب** عبر التجمعات (k-means clusters) لضمان مطابقة توزيع المصدر.
2. **اختيار الأزواج التدريبية** داخل كل تجمع، بحيث يتم تقليل البعد المتوقع الشرطي الذي يستند إلى توزيع الهدف.
أثبتت الأبحاث أن التخصيص المتناسب بين التجمعات يضمن وجود حدود للـ KL divergence المستمر بين البيانات المختارة وتوزيع البيانات المستخدمة في المعايرة.
نتائج مذهلة
تم تقييم CRAFT على ترجمة اللغة الإنجليزية إلى الهندية باستخدام 33 مليون زوج جملة من NLLB، حيث حققت CRAFT درجة 43.34 BLEU. وهذا يتفوق بفارق 2.13 نقطة على تقنية TSDS التي حققت 41.21، مع إتمام اختيار البيانات بسرعة تفوق 40 مرة. وحتى مع استخدام TF-IDF، يمكن إتمام العملية بأكملها في أقل من دقيقة واحدة على وحدة المعالجة المركزية.
سرعة وفعالية
في حين حققت تقنية TAROT درجة 45.61 BLEU، إلا أن CRAFT تمكنت من إتمام اختيار البيانات في 26.86 ثانية، بينما استغرقت TAROT 75.6 ثانية، مما يجعل CRAFT أسرع بمعدل 2.8 مرة.
في الختام، تمثل CRAFT قفزة نوعية في كيفية اختيار البيانات لتدريب نماذج الذكاء الاصطناعي، مما يجعلها أداة مثالية للباحثين والمطورين على حد سواء.
**ما رأيك في هذه التقنية الجديدة؟ هل تعتقد أنها ستغير قواعد اللعبة في عالم الذكاء الاصطناعي؟**
