إطلاق IndicDB: معيار ثوري لتحليل النصوص إلى SQL بلغات الهند المتعددة!

في سابقة جديدة في مجال الذكاء الاصطناعي، أُعلن عن إطلاق IndicDB، وهو معيار متعدد اللغات يتمحور حول تحويل النصوص إلى SQL، ويهدف لتقييم قدرات النماذج اللغوية الكبيرة (Large Language Models) في سياقات هندية متنوعة. بالرغم من التقدم الكبير الذي حققته هذه النماذج في الأداء، إلا أن المعايير الحالية تركز بشكل أساسي على السياقات الغربية، مما يترك فجوات في التطبيقات العالمية الحقيقية.

تستند بنية البيانات في IndicDB إلى منصات بيانات مفتوحة مثل المنصة الوطنية للبيانات والتحليلات (NDAP) وبوابة البيانات الهندية (IDP)، مما يضمن تعقيد البيانات الإدارية الواقعية. ويجمع IndicDB بين 20 قاعدة بيانات تحتوي على 237 جدولًا، مستخدمين إطار عمل ثلاثي المراحل (المهندس، المدقق، المكرر) لتحويل البيانات الحكومية غير المنسقة إلى هياكل علاقة غنية، مما يؤدي إلى كفاءة هيكلية مرتفعة وكثافة علاقات تصل إلى 11.85 جدول لكل قاعدة بيانات.

كما يتميز IndicDB بكونه واعيًا للقيمة، ومُعيرًا للصعوبة، ويدمج الروابط اللازمة لتوليد 15,617 مهمة عبر الإنجليزية، والهندية، وخمسة لغات هندية أخرى. تم تقييم أداء تحليل المعاني المتبادل للنماذج الرائدة (مثل DeepSeek v3.2، MiniMax 2.7، LLaMA 3.3، Qwen3) عبر سبعة تباينات لغوية، وكشف البحث عن تراجع في الأداء بنحو 9% عند الانتقال من الإنجليزية إلى اللغات الهندية، مما يُظهر وجود فجوة يُطلق عليها "الفجوة الهندية" بسبب صعوبة ربط البيانات الهيكلية، وزيادة الغموض الهيكلي، وحدود المعرفة الخارجية.

بفضل هذه المبادرة، يسعى فريق IndicDB إلى توفير معيار صارم لقياس وتحليل أداء نماذج النص إلى SQL متعددة اللغات، مما يعزز آفاق الذكاء الاصطناعي في السياقات غير الغربية. كيف ترى تأثير هذا المعيار على مستقبل الذكاء الاصطناعي في الهند؟ شاركونا آرائكم في التعليقات!

إطلاق IndicDB: معيار ثوري لتحليل النصوص إلى SQL بلغات الهند المتعددة!

شارك الخبر مع أصدقائك

📰أخبار قد تهمك

قفزة مذهلة: مساعد جوجل Gemini يغزو الملايين من السيارات!

ثورة في الرسومات: تسريع استنتاج Unreal Engine باستخدام NVIDIA TensorRT!

ثورة الألعاب: دمج تقنيات NVIDIA DLSS 4.5 وRTX مع Unreal Engine 5!