اكتشاف العلاقة بين النماذج اللغوية الكبيرة (LLMs) ونماذج المواضيع: رؤية جديدة لتمثيل المعلومات
تقدم الأبحاث الجديدة منهجيات مبتكرة لاستخدام النماذج اللغوية الكبيرة في نمذجة المواضيع، مما يعزز الأداء وفهم المعلومات. الدراسة تتناول القدرة على تفسير البيانات واستنتاج المواضيع من المحتوى الطويل.
تسعى نمذجة المواضيع إلى إنتاج تمثيلات تفسيرية للمواضيع والعلاقات بين المواضيع والمستندات من مجموعات البيانات. لكن النماذج العصبية التقليدية (Neural Topic Models - NTMs) تواجه قيوداً بسبب افتراضات تمثيل محدودة وقدرتها على التجريد الدلالي. في دراسة جديدة، تم تناول نمذجة المواضيع المعتمدة على النماذج اللغوية الكبيرة (Large Language Models - LLMs) من منظورات متعددة: الشفافة وغير الشفافة.
في القسم الشفاف، تم اقتراح إطار عمل مُعتمد على الانتباه، والذي يُعيد إنشاء الهياكل القابلة للتفسير والتي تشبه تلك الموجودة في النماذج العصبية، بما في ذلك توزيعات المستندات والمواضيع والكلمات. هذا يدعم الرأي القائل بأن LLM يمكن أن يلعب دور نماذج المواضيع المعتمدة على الانتباه.
بالنسبة للنهج غير الشفاف، تم إعادة صياغة نمذجة المواضيع كمهمة طويلة الإدخال مُهيكلة، وتعريف طريقة تعويض الإشارات بعد التوليد تعتمد على تلميحات موضوعية متنوعة واسترجاع هجين. أظهرت التجارب أن الهياكل المعاد تشكيلها تدعم تخصيص المواضيع بشكل فعال واستخراج الكلمات الدلالية. كما حققت LLMs ذات السياق الطويل أداءً تنافسياً أو أقوى من المعايير الأخرى.
تشير هذه النتائج إلى وجود علاقة قوية بين LLMs وNTMs، وتبرز الوعد الذي توفره النماذج ذات السياق الطويل في تحسين نمذجة المواضيع ومعالجة المعلومات المعقدة.
في القسم الشفاف، تم اقتراح إطار عمل مُعتمد على الانتباه، والذي يُعيد إنشاء الهياكل القابلة للتفسير والتي تشبه تلك الموجودة في النماذج العصبية، بما في ذلك توزيعات المستندات والمواضيع والكلمات. هذا يدعم الرأي القائل بأن LLM يمكن أن يلعب دور نماذج المواضيع المعتمدة على الانتباه.
بالنسبة للنهج غير الشفاف، تم إعادة صياغة نمذجة المواضيع كمهمة طويلة الإدخال مُهيكلة، وتعريف طريقة تعويض الإشارات بعد التوليد تعتمد على تلميحات موضوعية متنوعة واسترجاع هجين. أظهرت التجارب أن الهياكل المعاد تشكيلها تدعم تخصيص المواضيع بشكل فعال واستخراج الكلمات الدلالية. كما حققت LLMs ذات السياق الطويل أداءً تنافسياً أو أقوى من المعايير الأخرى.
تشير هذه النتائج إلى وجود علاقة قوية بين LLMs وNTMs، وتبرز الوعد الذي توفره النماذج ذات السياق الطويل في تحسين نمذجة المواضيع ومعالجة المعلومات المعقدة.

