🔬 أبحاث2 دقائق للقراءة👁 0 مشاهدة

كيف يمكننا تصنيع بيانات تدريب عالية الجودة؟ دراسة شاملة حول تصميم التوجيه ونموذج المولد وبيانات المصدر

تقدم دراسة جديدة طرقاً مبتكرة لتصنيع بيانات تدريب لتحسين أداء نماذج اللغة الكبيرة. تكشف النتائج عن أهمية اختيار التنسيق المناسب للبيانات وتأثيره الكبير على جودة النتائج.

في عالم الذكاء الاصطناعي (AI)، تعتبر بيانات التدريب الاصطناعية عنصراً أساسياً في تدريب نماذج اللغة الكبيرة (Large Language Models). ومع ذلك، ما زال هناك قصور في الدراسات التي تقارن منهجيات التصميم المختلفة، بما في ذلك استراتيجيات إعادة الصياغة (Rephrasing Strategy)، ونموذج المولد (Generator Model)، وبيانات المصدر (Source Data).

أجرت مجموعة من الباحثين تجارب محكومة شاملة، مما ساهم في توليد أكثر من تريليون توكن (Token) لتحديد العوامل الحاسمة في إعادة صياغة النصوص المستخلصة من الويب إلى بيانات تدريب اصطناعية.

أظهرت النتائج أن تنسيقات المخرجات الهيكلية، مثل الجداول، والمسائل الرياضية، والأسئلة المتكررة (FAQs)، والدروس التعليمية، تتفوق بشكل مستمر على بيانات الويب المنقاة والأساليب الاصطناعية المستخدمة سابقاً. ومن الملاحظ أن زيادة حجم نموذج المولد لأكثر من مليار معلمة لا يمكن أن تقدم فائدة إضافية.

كما توضح التحليلات أن اختيار البيانات الأصلية المستخدمة في المزج يؤثر بشكل كبير على الأداء. بناءً على هذه النتائج، طور الباحثون مجموعة بيانات مفتوحة تحت اسم **FinePhrase**، والتي تحتوي على 486 مليار توكن تم إعادة صياغتها من نصوص الويب. وبيّنت الأبحاث أن **FinePhrase** تتفوق على جميع البيانات الاصطناعية السابقة، مما يقلل من تكاليف الإنتاج بنسبة تصل إلى 30 مرة.

تم توفير هذه المجموعة وجميع التوجيهات وإطار العمل للمجتمع البحثي، مما يمهد الطريق لتقدمات أكبر في مجال الذكاء الاصطناعي وتطوير نماذج لغوية أكثر كفاءة.
المصدر:أركايف للذكاءاقرأ المصدر الأصلي ←
مشاركة:𝕏واتسابتيليجراملينكدإن

📰 أخبار ذات صلة