في دراسة رائدة، تم إجراء أول تقييم شامل لأحدث النماذج في مجال الذكاء الاصطناعي، بما في ذلك GPT-4 وGPT-4o وGPT-3.5-Turbo وGemini 1.5 Pro وDeepSeek-V3 وLlama 3.2 وBERT. تم تطبيق هذا التقييم على ثلاثة مهام أساسية في تحليل وسائل التواصل الاجتماعي باستخدام بيانات تويتر (X)، وهي: (I) التحقق من هوية مؤلف المنشورات، (II) توليد المحتوى، و(III) استنتاج سمات المستخدمين.

لتقييم تحقق الهوية، تم تقديم إطار عمل عشوائي شامل يشمل استراتيجيات متنوعة لاختيار المستخدمين والمنشورات، حيث تم تقييم قدرة النماذج على التعميم من خلال تحليل التغريدات الجديدة التي تم جمعها اعتبارًا من يناير 2024، وذلك للتقليل من انحياز بيانات "المشاهد".

في مهمة توليد المحتوى، تم تقييم قدرة نماذج اللغة الضخمة على إنتاج محتوى أصيل يشبه كتابات المستخدمين، مستفيدين من معايير تقييم شاملة.

وكما تم الربط بين المهام (I) و(II)، تم إجراء دراسة مع المستخدمين لقياس تصوراتهم بشأن المنشورات التي أنشأتها نماذج اللغة الضخمة، مقيسةً بالتوافق مع كتاباتهم الخاصة.

أما بالنسبة لمهمة استنتاج السمات، فقد تم تصنيف المهن والاهتمامات باستخدام تصنيفات موحدة، مما يساعد على مواءمة النتائج بمقاييس سابقة.

بصفة عامة، يوفر هذا التقييم الموحد رؤى جديدة ويؤسس معايير قابلة للتكرار في مجالات تحليل وسائل التواصل الاجتماعي المدفوعة بنماذج اللغة الضخمة. الكود والبيانات توفر في المادة التكميلية، وستكون متاحة أيضًا للجمهور عند نشر البحث.