انهيار تنوع المخرجات: أين تحدث المشكلة في نماذج الذكاء الاصطناعي بعد التدريب؟
تظهر الأبحاث الجديدة أن نماذج اللغة المدربة تنتج مخرجات أقل تنوعًا مقارنةً بنماذجها الأساسية. هذا الانهيار في التنوع يهدد الطرق التي تعتمد على عينات متنوعة في تنفيذ المهام الإبداعية.
أحدثت نماذج اللغة المدربة (Post-trained language models) ثورة في كيفية تعاملنا مع النصوص والمعلومات، لكن الأبحاث الأخيرة تثير القلق حول جودة المخرجات التي تنتجها هذه النماذج. في دراسة جديدة نُشرت على arXiv، لوحظ أن هذه النماذج تنتج مخرجات أقل تنوعًا مقارنة بنماذجها الأساسية، مما يثير تساؤلات حول موثوقيتها في التطبيقات الإبداعية والمهام التي تتطلب تفاعلًا معقدًا.
تتسبب ظاهرة "انهيار التنوع" (Output Diversity Collapse) في تقليص نطاق الأفكار والخيارات المتاحة عند استخدام هذه النماذج. ومن الجدير بالذكر أن الأسباب وراء هذا الانهيار لا تتعلق فقط بأساليب التدريب بعد النموذج، بل تشمل أيضًا التركيبة العامة للبيانات المستخدمة أثناء التدريب.
تتبع البحث الجديد ثلاثة سلالات تدريبية متوازية، وهي: نموذج Olmo 3، وThink (الذي يعتمد على تقنية سلسلة التفكير)، وInstruct (الذي يستخدم بيانات متعددة المصادر). الخلاصة كانت مثيرة للاهتمام: السلالة التي تعتمد على Think تفقد تنوعًا دلاليًّا كبيرًا خلال عملية الضبط الدقيق الموجه، بينما يظهر تأثير تقنيات DPO بشكل أكبر في Instruct.
عند التركيز على نوع من التفكير التجريبي، تبين أن كبح التفكير التصوري في نماذج Think يؤثر سلباً على دقة النتائج في المهام الصعبة، ولكن دون التأثير على تنوع الإجابات، مما يشير إلى أن الانهيار يكمن في أوزان النموذج الناتجة عن بيانات التدريب.
عند تحليل فقدان التنوع عبر ست مهام مهنية قابلة للتحقق، أوضح الباحثون أن الفقدان ينقسم إلى مكون التحكم في الجودة (حذف المخرجات غير الصحيحة) ومكون البقايا (تضييق حقيقي بين المخرجات الصحيحة). وهذا الانقسام يعتمد على المهمة، حيث تحتفظ نماذج Think بتنوع أكبر في الإجابات الصحيحة مقارنةً بـ Instruct، رغم أنها قد تبدو أكثر قلة في التنوع في المجمل.
تشير النتائج إلى أن انهيار التنوع يُحدد أثناء مرحلة التدريب من خلال التركيبة البيانية، مما يستدعي إعادة تقييم طرق التدريب لمعالجة هذه القضية بدلًا من محاولة الإصلاح أثناء مرحلة الاستدلال.
تتسبب ظاهرة "انهيار التنوع" (Output Diversity Collapse) في تقليص نطاق الأفكار والخيارات المتاحة عند استخدام هذه النماذج. ومن الجدير بالذكر أن الأسباب وراء هذا الانهيار لا تتعلق فقط بأساليب التدريب بعد النموذج، بل تشمل أيضًا التركيبة العامة للبيانات المستخدمة أثناء التدريب.
تتبع البحث الجديد ثلاثة سلالات تدريبية متوازية، وهي: نموذج Olmo 3، وThink (الذي يعتمد على تقنية سلسلة التفكير)، وInstruct (الذي يستخدم بيانات متعددة المصادر). الخلاصة كانت مثيرة للاهتمام: السلالة التي تعتمد على Think تفقد تنوعًا دلاليًّا كبيرًا خلال عملية الضبط الدقيق الموجه، بينما يظهر تأثير تقنيات DPO بشكل أكبر في Instruct.
عند التركيز على نوع من التفكير التجريبي، تبين أن كبح التفكير التصوري في نماذج Think يؤثر سلباً على دقة النتائج في المهام الصعبة، ولكن دون التأثير على تنوع الإجابات، مما يشير إلى أن الانهيار يكمن في أوزان النموذج الناتجة عن بيانات التدريب.
عند تحليل فقدان التنوع عبر ست مهام مهنية قابلة للتحقق، أوضح الباحثون أن الفقدان ينقسم إلى مكون التحكم في الجودة (حذف المخرجات غير الصحيحة) ومكون البقايا (تضييق حقيقي بين المخرجات الصحيحة). وهذا الانقسام يعتمد على المهمة، حيث تحتفظ نماذج Think بتنوع أكبر في الإجابات الصحيحة مقارنةً بـ Instruct، رغم أنها قد تبدو أكثر قلة في التنوع في المجمل.
تشير النتائج إلى أن انهيار التنوع يُحدد أثناء مرحلة التدريب من خلال التركيبة البيانية، مما يستدعي إعادة تقييم طرق التدريب لمعالجة هذه القضية بدلًا من محاولة الإصلاح أثناء مرحلة الاستدلال.
📰 أخبار ذات صلة
أبحاث
استكشاف مشكلة تسلسل العناصر المشترك الأطول: ثغرات متعددة ومتغيرات معقدة
أركايف للذكاءمنذ 6 ساعة
أبحاث
ARES: نظام مبتكر لتعزيز أمان نماذج اللغة من خلال التكيف والمواجهة ذات الهدف المزدوج
أركايف للذكاءمنذ 6 ساعة
أبحاث
كيف تؤدي نماذج الذكاء الاصطناعي الأبحاث العلمية دون تفكير عميق؟
أركايف للذكاءمنذ 6 ساعة