أعلنت الأبحاث الجديدة عن تطوير فريد في مجال تكنولوجيا استرجاع مقاطع الفيديو، حيث يمكن للنماذج الحديثة أن تتجاوز الحدود التقليدية التي طالما اختصرت في رؤية الأحداث فقط. **StoryTR**، هي الأداة الجديدة التي تأخذ عملية الاسترجاع إلى مستوى جديد، وذلك من خلال اعتماد مفهوم **نظرية العقل (Theory of Mind)**.
ما هي نظرية العقل؟
تعد نظرية العقل القدرة المعرفية على فهم النوايا الضمنية والأفكار والعوامل التي تؤثر في السلوك. في الكثير من الأحيان، يمكن للنموذج أن يرى "ما يحدث" ولكنه يفشل في تفسير "لماذا هذا مهم". يتمثل الهدف من StoryTR في استخدام هذه النظرية لفهم الأحداث من منظور أعمق، مما يعزز تجربة المستخدم ويدعم تحقيق نتائج أفضل.
كيف تعمل StoryTR؟
تضم StoryTR مجموعة بيانات تحتوي على 8,100 عينة من مقاطع الفيديو القصيرة التي تمثل أرض اختبار مثالية لتعقيدها المعلوماتي العالي. هذه الفيديوهات تستخدم إشارات متعددة الاتجاهات لنقل المعاني، مما يجعل فهم السياق أكثر تحدياً. على سبيل المثال، نظرة مع تنهد قد تعني شيئاً مختلفاً تماماً عن النظرة بمفردها.
لتمكين النماذج من فهم هذه التركيبات العاطفية، تم تطوير pipeline لتوليد بيانات التدريب مع سلسلة منطقية ثلاثة المستويات مرتبطة بنظرية العقل، تشمل:
1. فك شيفرة النوايا
2. التفكير السردي
3. تحديد الحدود
النتائج والنماذج
أظهرت التجارب الفجوة الكبيرة في قدرات التفكير العقلاني: نموذج **Gemini-3.0-Pro** حقق فقط 0.53 في متوسط **IoU** على StoryTR. ومع ذلك، قدم نموذج **Shorts-Moment** ذو السبع مليارات متغير، المدرب على بيانات موجهة من نظرية العقل، تحسيناً نسبياً بمقدار 15.1% في نتائج **IoU**، ما يثبت أن **القدرة على التفكير السردي** هي الأهم مقارنة بحجم المعلمات.
ختام
إن القفزات التقنية مثل StoryTR لا تعيد تعريف كيفية تفاعلنا مع الوسائط، بل تفتح أيضاً آفاقاً جديدة للابتكار في تحقيق القدرة على الفهم العاطفي.
**هل تعتقد أن استخدام نظرية العقل في التكنولوجيا يمكن أن يغير من تجربتنا في مشاهدة الفيديوهات؟**
