في عالم الذكاء الاصطناعي، يُعد تنوع التصنيفات البشرية (Human Label Variation) مفهومًا حيويًا حيث يمثل الاختلاف المشروع في التوصيفات التي تعكس تنوع وجهات النظر البشرية. لعقود من الزمن، تم التعامل مع هذا التنوع على أنه ضوضاء يجب القضاء عليها في معالجة اللغة الطبيعية (NLP). ومع ذلك، فإننا نشهد الآن تحولًا في هذه العقلية حيث بدأ يُعتبر إشارة لتعزيز متانة نماذج اللغة الكبيرة (Large Language Models).

مع ظهور تقنيات ما بعد التدريب على نماذج التعلم العميق، مثل التنسيق القائم على ردود الفعل البشرية، أصبح دور تنوع التصنيفات البشرية أكثر أهمية من أي وقت مضى. إلا أن العديد من مجموعات بيانات التعلم الحالية تختزل بشكل روتيني عدة تصنيفات في تصنيف واحد، مما يflattening وجهات النظر المتنوعة إلى توافق صناعي.

يُظهر الحفاظ على تنوع التصنيفات البشرية ليس فقط ضرورة للتنسيق متعدد الاتجاهات، ولكن أيضًا لتقييم السلامة الاجتماعية التقنية، حيث يجب تقييم سلوك النموذج فيما يتعلق بالتفاعل البشري والسياق الاجتماعي. تدعو هذه الورقة إلى اعتبار الحفاظ على تنوع التصنيفات البشرية كقيمة جوهرية في حد ذاته، وهو ما يُعرف بــ Selbstzweck.

نحلل القيود الموجودة في مجموعات بيانات التفضيلات القائمة ونقترح استراتيجيات عملية لدمج تنوع التصنيفات البشرية في بناء قواعد البيانات بشكل أفضل، للحفاظ على القيم الإنسانية المتعددة بشكل فعّال. إن فهم التنوع في التصنيفات يمكن أن يساعد في تعزيز الأمان الاجتماعي وتوسيع نطاق التفاعل الإنساني مع الذكاء الاصطناعي، مما يحقق نتائج أفضل وأكثر توافقًا مع مجتمعاتنا.