في العصر الرقمي الحالي، أصبحت مهام تحرير الصور تُعتمد بشكل متزايد على نماذج التوليد القوية، مثل نماذج الانتشار (Diffusion Models)، لضمان جودة المحتوى. ومع ذلك، لا يزال استخدام أساليب التعلم المعزز (Reinforcement Learning)، مثل Diffusion-DPO وFlow-GRPO، في تعزيز تحرير الصور لا يحظى بالتطوير المطلوب. يواجه الباحثون تحديات عدة، منها نقص البيانات القابلة للتوسع التي تعكس تفضيلات البشر وإطُر العمل اللازمة لتلبية الاحتياجات التحريرية المتنوعة.

لذا، يقدم العلماء في هذا المجال الحل المناسب من خلال ابتكار HP-Edit، وهو إطار عمل ما بعد التدريب يهدف إلى محاذاة تحرير الصور مع تفضيلات البشر. ويصاحب هذا الابتكار إصدار مجموعة بيانات جديدة تُدعى RealPref-50K، والتي تضم مجموعة متنوعة من مهام التحرير الشائعة، وتجسد عمليات تحرير كائنات معروفة.

يعتمد HP-Edit على كمية قليلة من بيانات تفضيلات البشر ويستفيد من نموذج لغة مرئي مدرب مسبقاً (Pretrained Visual Large Language Model) لتطوير HP-Scorer، وهو مُقيّم تلقائي يتماشى مع تفضيلات البشر. بمجرد تطوير HP-Scorer، يمكن استخدامه لبناء مجموعة بيانات ذات تفضيلات قابلة للتوسع، كما يمكن استخدامه كدالة مكافأة أثناء ما بعد تدريب نموذج التحرير.

بالإضافة إلى ذلك، تم تقديم RealPref-Bench، وهو معيار لتقييم الأداء الواقعي لعمليات التحرير. أظهرت التجارب الواسعة أن هذا النهج يعزز بشكل كبير أداء نماذج مثل Qwen-Image-Edit-2509، مما يجعل نتائجها تتماشى بشكل أكبر مع توقعات البشر.