في عصر تسارع تطور الذكاء الاصطناعي، أصبحت النماذج اللغوية الضخمة (Large Language Models) راسخة كأحد العناصر الحاسمة في معالجة البيانات. حيث كانت طرق اختيارات البيانات في السابق تعتمد على زيادة الكمية، لكن الأمور بدأت تتغير مع تنامي متطلبات الجودة.

أظهر البحث الأخير أنه في الكثير من اللغات، لا تكون البيانات عالية الجودة متاحة بشكل كافٍ لتدريب مصنّفات الجودة بشكل موثوق. هنا تأتي أهمية وجود علامات الجودة في فضاء التضمين، حيث يمكن أن تُظهر اتساقاً بين اللغات، مما يسمح للغات ذات الموارد العالية بدعم ترشيح البيانات للغات ذات الموارد القليلة.

قام الباحثون بتقييم استراتيجيات ترشيح متنوعة، منها النقل بين اللغات (cross-lingual transfer)، واختيار العينة في الربع الثالث (third quartile sampling) وضبط معدل الاحتفاظ. نتائج التجارب أظهرت أن تجميع متعدد اللغات يمكن أن يتفوق في كثير من الأحيان على الأسس الأحادية في الاستقرار والدقة الشاملة، خصوصًا عند تدريب نموذج يتكون من 1 مليار مكون على 103 مليار توكن.

تشير النتائج إلى أن هناك زيادة ملحوظة في دقة التقييم للغات ذات الموارد العالية، مثل الفرنسية، التي حققت 1.2% زيادة. بينما للغات ذات الموارد المحدودة، كانت النتائج متساوية أو تفوق تلك الخاصة بالأساس الأحادي.

لكن الباحثين وجدوا أن حجم النموذج بمفرده لا يضمن الاستقرار. ولتستفيد اللغات ذات الموارد العالية مثل الفرنسية بشكل كامل من الإشارات متعددة اللغات، كان من الضروري تحسين الحدود الزمنية من خلال التصفية في الربع الثالث أو ضبط معدل الاحتفاظ.

هذا البحث يفتح آفاق جديدة أمام فهم كيفية تعامل الذكاء الاصطناعي مع البيانات متعددة اللغات، مما يُسهم في تطوير أدوات قوية لمصنِّفات الجودة التي تحسن من أداء النماذج وتعزّز التجربة اللغوية لكثير من المستخدمين في العالم.