في عالم الذكاء الاصطناعي، تعتبر جودة بيانات التدريب حجر الزاوية لنجاح أي نموذج، وخاصة نماذج اللغة الرؤية الكبيرة (LVLMs). لقد أظهرت الأبحاث أن فعالية هذه النماذج تعتمد بشكل كبير على التوازن بين الدقة البصرية والقدرة على اتباع التعليمات. ومع ذلك، تواجه مجموعات البيانات الحالية تحديات عديدة، حيث تعاني من عدم تناسق الجودة، مما يؤدي إلى الاعتماد على طرق تصفية بيانات بدائية قد تفتقر إلى الدقة الكافية لاكتشاف عيوب دقيقة مثل الأخطاء المنطقية أو المعلومات الخاطئة.
للتغلب على هذه العقبة، تقدم إيفيان (EVIAN) ثلاثة مساهمات أساسية. أولاً، تم إنشاء معيار كبير يضم 300,000 عينة عبر إدخال عيوب متنوعة ومتقنة، مما يوفر اختبارًا صعبًا لتدقيق البيانات. ثانياً، تم تقديم مفهوم جديد يُعرف بـ "التفكيك ثم التقييم"، والذي يُقسّم ردود النموذج إلى مكونات عقلية مثل الوصف البصري والاستدلال الذاتي والمطالبات الواقعية، مما يسهل التحليل المستهدف. ثالثاً، يتم تنفيذ هذا المفهوم عبر إطار عمل أتمتة يقيم هذه المكونات وفقاً لمجالات متوازية تشمل التناسق بين الصورة والنص، والترابط المنطقي، والدقة الواقعية.
تحدت نتائجنا التجريبية المفاهيم السائدة حول الحجم، حيث أظهر النموذج الذي خضع لتعديل دقيق على مجموعة فرعية عالية الجودة تم تنسيقها بواسطة إيفيان أداءً متفوقًا مقارنة بالنماذج المدربة على مجموعات بيانات أكبر بكثير. كما كشفت الدراسات أن تقسيم تدقيق البيانات المعقد إلى مهام قابلة للتحقق يعزز من دقة التنسيق، وأكدت أن الترابط المنطقي يعتبر العامل الأهم في تقييم جودة البيانات.
إيفيان: الرؤية الجديدة لتدقيق بيانات التعليمات البصرية القابلة للتفسير
تستند فعالية نماذج اللغة الرؤية الكبيرة (LVLMs) إلى جودة بيانات التدريب، حيث تمثل إيفيان خطوة ثورية في تحسين تدقيق البيانات عبر إدخال مفهوم جديد. يتيح هذا النظام تحليلًا دقيقًا للردود مدعومًا بتقسيم البيانات.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
