في عالم الذكاء الاصطناعي، يعتبر اختيار دالة التنشيط (Activation Function) محوراً أساسياً لتحسين أداء الشبكات العصبية العميقة. حتى الآن، كانت دالة الوحدة الخطية المصححة (ReLU) هي الخيار الأكثر شيوعاً بفضل بساطتها وفعاليتها. لكن، لطالما كانت مشكلة انعدام السلاسة تحول دون تحقيق تحسينات مثلى باستخدام تقنيات تحليل التدرجات.

في هذا السياق، تقدم المقالة الجديدة عائلة من دوال التنشيط المتميزة، والمعروفة باسم دوال الجيومتريك مونومايل (GEM)، التي تتميز بملاءمة أفضل وتوفير أداء مماثل لـ ReLU باستخدام حسابات جبرية منطقية. تقدم مُقترحات جديدة تشمل ثلاثة متغيرات:
- **GEM**: وهي العائلة الأساسية.
- **E-GEM**: نسخة معمارية تعتمد على معلمة (ε) لتمكين تقريبات (L^p) عشوائية لـ ReLU.
- **SE-GEM**: نسق جزئي يقضي على الخلايا العصبية الميتة برابط سلسة من الدرجة (C^{2N}).

أظهرت الدراسات المُجراة أن أفضل قيمة لـ N هي 1 للشبكات العصبية القياسية، مما يقلل الفرق بين الأداء ودالة GELU في مجموعة بيانات CIFAR-100 مع شبكة ResNet-56 من 6.10% إلى 2.12%. بالإضافة إلى ذلك، يكشف المعامل (N) عن توازن بين CNNs والمحولات: N=1 مفضل للشبكات العصبية المعمقة وN=2 للمحولات. على مجموعة بيانات MNIST، يتمكن E-GEM من تحقيق أفضل أداء بمعدل دقة يصل إلى 99.23%، بينما في CIFAR-10 مع ResNet-56، تجاوز SE-GEM دالة GELU بشكل طفيف بنسبة 92.51% مقارنة بـ 92.44%.

تعتبر دوال GEM تحسناً ملحوظًا، خاصةً أن GEM على نموذج GPT-2 (124 مليون متغير) تحقق أقل مستوى من التعقيد (Perplexity) بواقع 72.57، مما يجعلها منافسة قوية لدالة GELU (73.76). بينما في نموذج BERT-small، حققت E-GEM (مع ε=10) أفضل خسارة تقييم (6.656) عبر جميع دوال التنشيط المحترفة.

يظهر استثمار المعامل (ε) أن هناك مثالية تعتمد على المقياس: قيمة صغيرة لـ (ε) (10^{-4}--10^{-6}) تناسب CNNs العميقة والمحولات الأكبر، بينما المحولات الصغيرة مثل (BERT-small) تستفيد من قيم أكبر (ε=10) نظراً لعمقها المحدود وتدرجاتها غير المقيدة.

باختصار، فإن الابتكار في دوال GEM يوحي بتوجه جديد في تصميم الشبكات العصبية، مما يعكس بدوره تقدمًا محوريًا في مجال الذكاء الاصطناعي. هل تتوقع أن يحدث هذا الابتكار انتعاشًا في تقنيات التعلم العميق؟ شاركونا آرائكم في التعليقات!