سابقة في الذكاء الاصطناعي علامة فارقة في خصوصية البيانات
طرحت جوجل نموذج VaultGemma، وهو نموذج جديد تم تطويره لحل واحدة من أكبر المشاكل في مجال الذكاء الاصطناعي، وهي خصوصية البيانات. يبرز هذا النموذج باعتباره أكثر أنظمة الذكاء الاصطناعي توجهاً نحو الخصوصية التي طورتها الشركة على الإطلاق.

في الوقت الحاضر، هناك حاجة إلى كمية هائلة من البيانات لتدريب النماذج اللغوية الكبيرة (LLMs). ومع ذلك، نظرًا لأن هذه البيانات يتم جمعها في الغالب من الإنترنت، فقد يتم تضمين المعلومات الشخصية للمستخدمين دون قصد في بيانات التدريب. يمكن أن يتسبب ذلك في "حفظ" نماذج الذكاء الاصطناعي لمعلومات حساسة ومن ثم استخدامها عن غير قصد في مخرجاتها.
"الخصوصية المتمايزة
وللتخفيف من هذه المخاطر، تعتمد VaultGemma على تقنية "الخصوصية المتمايزة" (DP)، والتي كانت معروفة منذ فترة طويلة في عالم الذكاء الاصطناعي ولكنها المرة الأولى التي يتم تطبيقها بشكل شامل على هذا النطاق. وبفضل هذه الطريقة، تتم إضافة ضوضاء رقمية إلى تدريب النموذج بحيث لا يستطيع النموذج حفظ البيانات وتكرارها بالضبط.
ميزة أخرى رائعة للنموذج هي أنه يضمن الخصوصية على مستوى السلسلة الرمزية. على سبيل المثال، إذا ظهرت معلومة ما في جملة واحدة فقط، يتصرف النموذج كما لو أنه لم يرَ تلك المعلومة من قبل ولا يعكسها في إجاباته. بهذه الطريقة، تؤكد Google على أن VaultGemma يتصرف إحصائيًا كنموذج "بدون معلومات".
له أيضًا عيوب
هذا النهج الموجه نحو الخصوصية له عيب متأصل: كلما زادت كمية الضوضاء، تقل دقة النموذج. ومع ذلك، فقد طوّرت Google إطارًا رياضيًا جديدًا يسمى "قوانين تحجيم الخصوصية التفاضلية" للتعويض عن هذه المشكلة. يساعد هذا الإطار على تحسين التوازن بين قوة المعالجة (FLOPs) وكمية البيانات (عدد الرموز) ومستوى الخصوصية.
مع وجود مليار معلمة، تم تدريب VaultGemma، على الرغم من أنه نموذج صغير نسبيًا، بقوة معالجة أعلى مقارنةً بالنماذج ذات الحجم المماثل. بهذه الطريقة، لم يكن هناك انخفاض كبير في أداء النموذج على الرغم من الضوضاء المضافة. يشير الخبراء إلى أن VaultGemma يتساوى تقريبًا مع نموذج GPT-2 من OpenAI.
استنادًا إلى عائلة نماذج Gemma 2 من Google، يتم تقديم VaultGemma على أنه مفتوح الوزن. هذا يعني أنه يمكن للمطوّرين تنزيل وتشغيل الأوزان المدرّبة للنموذج (أي القيم العددية التي يتعلمها)، وحتى إعادة تدريبه باستخدام بياناتهم الخاصة. أوزان النموذج متاحة على Hugging Face و Kaggle.
تذكر Google أن VaultGemma خطوة مهمة نحو إقامة توازن دقيق بين خصوصية البيانات وجودة النموذج في عملية تطوير الذكاء الاصطناعي. وتذكر الشركة أنها بهذه الدراسة تقدم خارطة طريق منهجية لمجتمع الذكاء الاصطناعي. ووفقاً للخبراء، قد تصبح هذه الطريقة هي المعيار في المستقبل، خاصةً في القطاعات التي تتم فيها معالجة البيانات الحساسة.
ما هو رد فعلك؟






