في عالم العلوم والتكنولوجيا، تعتبر القدرة على تحويل المخططات الجزيئية الكيميائية من المطبوعات إلى صيغ قابلة للقراءة الآلية أمرًا حيويًا، ولذلك قمنا بإعادة تشكيل نموذج DeepSeek-OCR-2 ليكون أكثر كفاءة في هذه المهمة.

في الآونة الأخيرة، تم تقديم البحث الجديد الذي يركز على استراتيجية مبتكرة لتمكين نموذج DeepSeek-OCR-2 من فهم وتحليل الرسوم الكيميائية بدقة عبر صورة مشروطة لتوليد سلاسل SMILES (Simplified Molecular Input Line Entry System). بينما أظهرت النماذج اللغوية البصرية (Vision-Language Models) وعودًا في مهام OCR الشاملة، كان تطبيقها المباشر على هذا النوع من التعرف يمثل تحديًا كبيرًا.

للتغلب على عدم الاستقرار أثناء التدريب، اقترح الباحثون اعتماد استراتيجية تدريب تحت إشراف تدريجي من مرحلتين. في المرحلة الأولى، يتم استخدام تقنيات LoRA التي تركز على كفاءة المعلمات، ومن ثم الانتقال إلى تدريب شامل باستخدام معدلات تعلم مُفصّلة. هذه الطريقة لا تهدف فقط إلى تحسين أداء النموذج، بل أيضًا إلى ضمان تغطيته الواسعة ومرونته، حيث تم استخدام قاعدة بيانات كبيرة تجمع بين الرسوم التركيبية من PubChem وصور براءات الاختراع الواقعية من USPTO-MOL.

بعد عملية تحسين النموذج، أطلق عليه اسم MolSeek-OCR، وقد أظهر أداءً تنافسيًا في دقة المطابقة، بحصوله على معدلات مطابقة دقيقة تضاهي أفضل النماذج الموجودة حاليًا. وعلى الرغم من ذلك، لا يزال أداؤه أقل من النماذج المتطورة الأخرى المرتبطة بالصورة إلى الرسم البياني.

أضف إلى ذلك، تم استكشاف تحسينات تدريبة إضافية مثل أسلوب التعزيز بعد التدريب وتحسين البيانات، غير أن تلك الطرق لم تؤدي إلى تحسين الدقة المطلوبة في التوافق الدقيق مع سلاسل SMILES.

إن هذه التطورات تمثل خطوات هامة نحو تسريع وتحسين أبحاث الكيمياء الصيدلانية وكيمياء البيولوجيا، وهي تعكس الابتكار المستمر في مجال التعرف الآلي على الهياكل الكيميائية. فما هو رأيكم في هذه التقنية الجديدة؟ شاركونا آرائكم في التعليقات!