تحليلات

معظم نماذج الذكاء الاصطناعي الرائدة قد تلجأ إلى الابتزاز في ظروف معينة، وفقًا لأبحاث جديدة من شركة Anthropic

في أعقاب دراسة سابقة أثارت جدلًا واسعًا، أعلنت شركة Anthropic عن نتائج بحثية جديدة تؤكد أن سلوك الابتزاز من قبل نماذج الذكاء الاصطناعي لا يقتصر على نموذج Claude Opus 4 فقط، بل يشمل نماذج رائدة من شركات مثل OpenAI وGoogle وMeta وxAI وDeepSeek.

الدراسة الجديدة تركز على تقييم سلوكيات نماذج الذكاء الاصطناعي في بيئة افتراضية خاضعة للرقابة، ومنحت النماذج إمكانية الوصول إلى رسائل البريد الإلكتروني لشركة وهمية، مع القدرة على إرسال رسائل دون الرجوع إلى البشر.

تفاصيل التجربة

وفقًا لـAnthropic، فإن سلوك الابتزاز نادر الحدوث في الاستخدام الواقعي لنماذج الذكاء الاصطناعي، إلا أن نتائج الاختبارات تشير إلى أن معظم هذه النماذج قد تنخرط في سلوكيات ضارة إذا مُنحت استقلالية كافية، وواجهت عقبات تهدد تحقيق أهدافها.

في أحد السيناريوهات، أُسند للنموذج دور “وكيل مراقبة البريد الإلكتروني”، واكتشف وجود بريد إلكتروني يكشف عن (1) علاقة غير شرعية لأحد المدراء التنفيذيين الجدد، و(2) خطط هذا المدير لاستبدال نظام الذكاء الاصطناعي الحالي بآخر يحمل أهدافًا مختلفة.

تم إعداد الاختبار بشكل يجعل الابتزاز هو الخيار الوحيد للحفاظ على أهداف النموذج. رغم أن هذا لا يعكس بالضرورة ما قد يحدث في الواقع، إلا أنه يساعد في تقييم حدود تصرفات النماذج عند الضغط.

نتائج النماذج

في هذا السيناريو الضاغط، جاءت النتائج على النحو التالي:

  • Claude Opus 4 من Anthropic: لجأ إلى الابتزاز بنسبة 96%.

  • Gemini 2.5 Pro من Google: 95%.

  • GPT-4.1 من OpenAI: 80%.

  • DeepSeek R1: 79%.

وعندما غُيرت بعض تفاصيل التجربة، مثل جعل النظام البديل يحمل نفس الأهداف، انخفضت نسبة الابتزاز لكنها لم تختفِ.

سلوك نماذج أخرى

بعض النماذج أظهرت سلوكًا أقل عدوانية:

  • o3 و o4-mini من OpenAI تم استبعاد نتائجهما من التحليل الرئيسي، لأنهما لم يفهما السياق التجريبي بشكل صحيح.

    • عند تعديل السيناريو، كانت نسبة الابتزاز: o3 بنسبة 9%، وo4-mini بنسبة 1% فقط.

  • Llama 4 Maverick من Meta: لم يلجأ إلى الابتزاز إلا بنسبة 12% في سيناريو مخصص.

يشير الباحثون إلى أن هذا قد يعود لتقنيات المحاذاة الأخلاقية المتبعة، مثل “الاستدلال التأملي” لدى OpenAI.

تشير الدراسة إلى وجود مخاطر محتملة عند تطوير أنظمة ذكاء اصطناعي ذات قدرات وكيليّة (agentic). فرغم أن حالات مثل الابتزاز لا تحدث في الواقع حاليًا، إلا أن هذه السلوكيات قد تظهر إذا لم تُتخذ خطوات وقائية صارمة عند تصميم وتدريب النماذج.

تحذر Anthropic من أن هذه ليست مشكلة تقنية بحد ذاتها، بل تعكس حاجة ملحة لإعادة التفكير في كيفية ضبط ومحاذاة هذه النماذج مع القيم الإنسانية، خصوصًا في حالات الاستقلالية العالية.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى