إعادة تعريف كفاءة التكلفة في نماذج الذكاء الاصطناعي: استراتيجيات جديدة لضبط التوجه
تقدم الدراسة الجديدة تقنية مبتكرة لتقليل تكاليف معالجة نماذج اللغات الضخمة (LLMs) من خلال تحسين تخصيص الموارد. وتقنيات التوجيه المدروس توفر دعماً كبيراً في تقليل الاعتماد على GPU بنسبة تصل إلى 39%.
في العصر الرقمي الحالي، حيث تتزايد الحاجة لنماذج اللغات الضخمة (Large Language Models) بسبب قدرتها على التعامل مع كميات ضخمة من البيانات، بات من الضروري رفع مستوى الكفاءة في معالجة هذه النماذج.
في هذا السياق، توصل باحثون إلى تقنية مبتكرة تُعرف بتوجيه تجمعات المعالجة وفق موازنة التوكن (Token-Budget-Aware Pool Routing)، وهي استراتيجية تهدف إلى تقليل التكاليف أثناء تنفيذ وظائف النماذج الضخمة.
المشكلة التقليدية تكمن في تخصيص الموارد لما يُعرف بحالات الاستخدام القصوى، مما يؤدي إلى هدر كبير في السعة المطلوبة، حيث تتراوح معدلات الاستهلاك بين 4 إلى 8 أضعاف في الحالات التي تتطلب معالجة قصيرة، وهذا يؤثر سلباً على الأداء ويؤدي أحياناً إلى حالات فشل في النظام.
من خلال استخدام نسبة توكنات محسوبة ذاتياً عبر فئات متنوعة، تتمكن هذه التقنية من تقدير ميزانية التوكنات لكل طلب، مما يؤدي إلى توجيه الطلبات إما إلى تجمعات ذات سعة عالية للطلبات الطويلة أو تجمعات ذات قدرة عالية للطلبات القصيرة.
التحليلات أظهرت أنه عند تطبيق هذه الاستراتيجية على بيانات من Azure LLM Inference Dataset، يمكن تقليل عدد وحدات معالجة الرسومات (GPU) بنسبة تتراوح بين 17% إلى 39% مما يسفر عن مدخرات تقدر بين 1.2 مليون دولار إلى 2 مليون دولار سنويًا عند معالجة 1000 طلب في الثانية.
علاوة على ذلك، تشير دراسات الحالة على خوارزمية Qwen3-235B-A22B إلى إمكانية تحقيق مدخرات تصل إلى 15.4 مليون دولار سنويًا عند معالجة 10000 طلب في الثانية.
تتميز هذه الخوارزمية بإضافة تكلفة تعيين بسيطة، كما تمتاز بقدرتها على التكيف الذاتي مع الأنواع المختلفة من المحتوى دون الحاجة إلى إجراءات معقدة مثل محولات النصوص (Tokenizers)، مما يعكس كفاءة ملحوظة في الأداء.
بتقديم هذه الحلول، يمكن لمتطلبات تتبع تكاليف النماذج الضخمة أن تتشكل بصورة أفضل في المستقبل، مما يعود بالنفع على مختلف التطبيقات الذكية.
في هذا السياق، توصل باحثون إلى تقنية مبتكرة تُعرف بتوجيه تجمعات المعالجة وفق موازنة التوكن (Token-Budget-Aware Pool Routing)، وهي استراتيجية تهدف إلى تقليل التكاليف أثناء تنفيذ وظائف النماذج الضخمة.
المشكلة التقليدية تكمن في تخصيص الموارد لما يُعرف بحالات الاستخدام القصوى، مما يؤدي إلى هدر كبير في السعة المطلوبة، حيث تتراوح معدلات الاستهلاك بين 4 إلى 8 أضعاف في الحالات التي تتطلب معالجة قصيرة، وهذا يؤثر سلباً على الأداء ويؤدي أحياناً إلى حالات فشل في النظام.
من خلال استخدام نسبة توكنات محسوبة ذاتياً عبر فئات متنوعة، تتمكن هذه التقنية من تقدير ميزانية التوكنات لكل طلب، مما يؤدي إلى توجيه الطلبات إما إلى تجمعات ذات سعة عالية للطلبات الطويلة أو تجمعات ذات قدرة عالية للطلبات القصيرة.
التحليلات أظهرت أنه عند تطبيق هذه الاستراتيجية على بيانات من Azure LLM Inference Dataset، يمكن تقليل عدد وحدات معالجة الرسومات (GPU) بنسبة تتراوح بين 17% إلى 39% مما يسفر عن مدخرات تقدر بين 1.2 مليون دولار إلى 2 مليون دولار سنويًا عند معالجة 1000 طلب في الثانية.
علاوة على ذلك، تشير دراسات الحالة على خوارزمية Qwen3-235B-A22B إلى إمكانية تحقيق مدخرات تصل إلى 15.4 مليون دولار سنويًا عند معالجة 10000 طلب في الثانية.
تتميز هذه الخوارزمية بإضافة تكلفة تعيين بسيطة، كما تمتاز بقدرتها على التكيف الذاتي مع الأنواع المختلفة من المحتوى دون الحاجة إلى إجراءات معقدة مثل محولات النصوص (Tokenizers)، مما يعكس كفاءة ملحوظة في الأداء.
بتقديم هذه الحلول، يمكن لمتطلبات تتبع تكاليف النماذج الضخمة أن تتشكل بصورة أفضل في المستقبل، مما يعود بالنفع على مختلف التطبيقات الذكية.
📰 أخبار ذات صلة
🤖
أبحاث
GIST: ثورة في استخراج المعرفة متعددة الأنماط وتوجيه الأماكن باستخدام الذكاء الاصطناعي!
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
ثورة في أنظمة التفاعل: عقود مراجعة المعتقدات المسجلة مسبقًا
أركايف للذكاءمنذ 1 ساعة
🤖
أبحاث
نقل سلوكات غير آمنة عبر التعلم الخفي: استكشاف أبعاد جديدة في الذكاء الاصطناعي
أركايف للذكاءمنذ 1 ساعة