أطلق الباحثون PIIBench، معياراً شاملاً للكشف عن المعلومات الشخصية (Personally Identifiable Information - PII) في النصوص الطبيعية. تجسد هذه المبادرة حلاً لمشكلة تجزئة الموارد الحالية، حيث تفتقر الأدوات المتنوعة إلى تنسيق موحد مما يصعّب مقارنة أنظمة الكشف المختلفة.

تجمع PIIBench عشرة مجموعات بيانات متاحة للجمهور، تغطي مجموعة واسعة تشمل بيانات PII الاصطناعية، ومعايير التعرف على الكيانات المسماة (Named Entity Recognition - NER) متعددة اللغات، ونصوص مالية مُعلمة. وبهذا، تم تجميع 2,369,883 تسلسلاً مُعَلَماً مع 3.35 مليون ذكر كيان عبر 48 نوعاً مختلفاً من الكيانات الرئيسية المتعلقة بـ PII.

اعتمدت PIIBench على خط أنابيب مُعَايَرَةٍ مُعدل يربط أكثر من 80 نوعاً من التصنيفات إلى مخطط العلامات الموحد BIO، مما يسهم في تحسين دقة الكشف. كما تم إجراء تقسيمات مُنظمة للبيانات للتدريب، التحقق، والتجربة، مما يضمن توزيعاً دقيقاً للمصادر.

عند تقييم صعوبة الأداء، شملت الدراسة مقاييس لثماني أنظمة منشورة، تتراوح بين محركات قائمة على القواعد (مثل Microsoft Presidio)، ونماذج NER العامة كـ (spaCy، BERT-base NER، وغيرها)، وصولاً إلى نماذج مخصصة لـ PII. ومع ذلك، لم تحقق أي من الأنظمة نتائج مبهرة، حيث كانت أعلى نتيجة مأخوذة (Presidio) عند مستوى F1 = 0.1385، مع تحقيق صفر في الكشف عن معظم أنواع الكيانات.

تعكس هذه النتائج التي أظهرتها PIIBench التحديات العديدة التي تواجه أنظمة الكشف الحالية، مما يؤكد الحاجة إلى أدوات ومعايير أكثر فعالية. ووفقاً للدراسات، يُظهر PIIBench أنه يمثل تحدياً أصعب بكثير مقارنة بأي مجموعة بيانات أحادية المصدر.

يمكن تنزيل كود بناء مجموعة البيانات وأكواد التقييم من خلال الرابط:
[رابط GitHub](https://github.com/pritesh-2711/pii-bench)