في العصر الرقمي الحالي، أصبحت مهام تحرير الصور تُعتمد بشكل متزايد على نماذج التوليد القوية، مثل نماذج الانتشار (Diffusion Models)، لضمان جودة المحتوى. ومع ذلك، لا يزال استخدام أساليب التعلم المعزز (Reinforcement Learning)، مثل Diffusion-DPO وFlow-GRPO، في تعزيز تحرير الصور لا يحظى بالتطوير المطلوب. يواجه الباحثون تحديات عدة، منها نقص البيانات القابلة للتوسع التي تعكس تفضيلات البشر وإطُر العمل اللازمة لتلبية الاحتياجات التحريرية المتنوعة.
لذا، يقدم العلماء في هذا المجال الحل المناسب من خلال ابتكار HP-Edit، وهو إطار عمل ما بعد التدريب يهدف إلى محاذاة تحرير الصور مع تفضيلات البشر. ويصاحب هذا الابتكار إصدار مجموعة بيانات جديدة تُدعى RealPref-50K، والتي تضم مجموعة متنوعة من مهام التحرير الشائعة، وتجسد عمليات تحرير كائنات معروفة.
يعتمد HP-Edit على كمية قليلة من بيانات تفضيلات البشر ويستفيد من نموذج لغة مرئي مدرب مسبقاً (Pretrained Visual Large Language Model) لتطوير HP-Scorer، وهو مُقيّم تلقائي يتماشى مع تفضيلات البشر. بمجرد تطوير HP-Scorer، يمكن استخدامه لبناء مجموعة بيانات ذات تفضيلات قابلة للتوسع، كما يمكن استخدامه كدالة مكافأة أثناء ما بعد تدريب نموذج التحرير.
بالإضافة إلى ذلك، تم تقديم RealPref-Bench، وهو معيار لتقييم الأداء الواقعي لعمليات التحرير. أظهرت التجارب الواسعة أن هذا النهج يعزز بشكل كبير أداء نماذج مثل Qwen-Image-Edit-2509، مما يجعل نتائجها تتماشى بشكل أكبر مع توقعات البشر.
ثورة في تحرير الصور: HP-Edit وإبداع التعامل مع تفضيلات البشر
تقدم HP-Edit إطار عمل مبتكراً لتوجيه تحرير الصور بناءً على تفضيلات البشر، مما يفتح آفاقاً جديدة في مجال تحرير المحتوى. تمثل مجموعة بيانات RealPref-50K حجر الزاوية لهذا التطور، حيث توفر أسساً قوية لتحسين جودة التحرير.
المصدر الأصلي:أركايف للذكاء
زيارة المصدر الأصلي ←جاري تحميل التفاعلات...
