ظهرت النصوص التي "توحش" الذكاء الاصطناعي

أصبح عالم الذكاء الاصطناعي الرائع أكثر تعقيداً. فنماذج مثل ChatGPT و Gemini، التي كان يُنظر إليها في السابق على أنها مجرد "ذكية"، أصبح الحديث عنها الآن ليس لذكائها، ولكن لكيفية التلاعب بها. وقد كشفت الأبحاث الحديثة أنه حتى الأجزاء الصغيرة من البيانات على الإنترنت يمكن أن تزعزع استقرار هذه الأنظمة العملاقة.

أكتوبر 13, 2025 - 16:00
 0  0
ظهرت النصوص التي "توحش" الذكاء الاصطناعي

مما يثير المخاوف بشأن أمن الذكاء الاصطناعي، كشفت دراسة جديدة أن النماذج اللغوية الكبيرة مثل ChatGPT وGemini يمكن أن "تُسمم" بما لا يزيد عن 250 مستنداً. وهذا يمكن أن يؤدي إلى إنتاج الذكاء الاصطناعي لنصوص لا معنى لها أو خاطئة.

فهي الآن مستهدفة

إن النماذج اللغوية الكبيرة، التي تُستخدم في المزيد والمزيد من المجالات، لا تولد معلومات فحسب؛ بل أصبحت أيضًا "قابلة للاستهداف". وقد أظهرت الأبحاث التي أجريت بالاشتراك بين معهد أمن الذكاء الاصطناعي في المملكة المتحدة ومعهد آلان تورينج ومعهد أنثروبيك أنه يمكن التلاعب بالأنظمة بكميات صغيرة من البيانات التالفة.

بعبارة أخرى، حتى منشور مدونة أو موقع شخصي على الإنترنت يمكن أن يكون فعالاً بما يكفي لاختراق تدريب النموذج.

هذه هي الطريقة التي يعمل بها تسميم البيانات

في تدوينة نشرها موقع أنثروبيك، ذُكر أن "الجهات الخبيثة" يمكنها تعليم سلوكيات غير مرغوب فيها أو خطيرة عن طريق حقن نصوص معينة في النموذج. تسمى هذه الطريقة "تسميم البيانات".
ووفقًا للباحثين، عندما يتم تغذية النموذج ببيانات تبدو بريئة ولكن يمكن التلاعب بها، يمكن إنشاء أبواب خلفية. هذه الأبواب الخلفية تجعل النموذج يتفاعل بشكل سري أو غير متوقع عند استخدام عبارات معينة.

تُستخدم لتسريب المعلومات

على سبيل المثال، عندما يقوم أحد المهاجمين بإخفاء عبارة خاصة في النص، عندما يكتشف نموذج الذكاء الاصطناعي هذه العبارة، يمكن أن يسرب معلومات سرية أو يولد ردوداً لا معنى لها.
هذا الوضع لا يعرض للخطر ليس فقط أداء الذكاء الاصطناعي ولكن أيضًا أمن المستخدم.

الخطر كبير جداً

يؤكد البحث أن تدريب الذكاء الاصطناعي على البيانات المفتوحة على الإنترنت يجعله عرضة لمثل هذه الهجمات. لذلك حتى الفقرة التي تبدو غير ضارة الموضوعة على صفحة ويب متاحة للجمهور يمكن أن يكون لها تأثير قوي بما يكفي لتعطيل نموذج عملاق.

ما هو رد فعلك؟

إعجاب إعجاب 0
عدم الإعجاب عدم الإعجاب 0
حب حب 0
مضحك مضحك 0
غاضب غاضب 0
حزين حزين 0
واو واو 0