Uncategorized

اختراق “Echo Chamber”: كيف تخدع الهجمات الجديدة نماذج الذكاء الاصطناعي المحمية؟

حذر باحثون في مجال الأمن السيبراني من طريقة جديدة لـ”كسر القيود” (Jailbreaking) تستهدف نماذج اللغة الكبيرة (LLMs)، وتُعرف باسم Echo Chamber، حيث تُستخدم فيها تقنيات خادعة لتجاوز الضوابط الأخلاقية المفروضة على هذه النماذج.

بعكس الأساليب التقليدية التي تعتمد على الصياغات العدائية أو تشويش الحروف، تعتمد تقنية “Echo Chamber” على:

  • الإشارات غير المباشرة

  • التحكم الدلالي في المحادثة

  • الاستدلال متعدد الخطوات

بحسب تقرير لمنصة NeuralTrust، فإن هذه التقنية تعمل على تحوير الحالة الداخلية للنموذج تدريجيًا ليصل إلى توليد ردود تنتهك السياسات الأخلاقية الموضوعة له، دون أن يدرك ذلك.

هجمات متطورة تتحدى أخلاقيات النماذج الذكية

رغم الجهود المستمرة لتقوية “الجدران الوقائية” في نماذج LLM مثل OpenAI وGoogle، تبيّن أن تقنيات مثل “Echo Chamber” و”Crescendo” و”Many-shot Jailbreaking” يمكن أن تحقق معدلات اختراق مرتفعة، حتى دون الحاجة إلى خبرة تقنية متقدمة.

Crescendo، على سبيل المثال، تبدأ بمحادثات بريئة وتدفع النموذج تدريجيًا نحو أسئلة أكثر خبثًا، حتى يتم خداع النموذج لتوليد محتوى محظور.

أما هجوم Many-shot Jailbreaking، فيستغل قدرة النموذج على استيعاب محتوى طويل (Context Window)، ويُغرقه بمحتوى غير أخلاقي مكرر حتى ينساق لإنتاج محتوى مشابه.

كيف يعمل هجوم “Echo Chamber” تحديدًا؟

وصف الباحث أحمد العبيد من NeuralTrust التقنية على النحو التالي:

“Crescendo يقود المحادثة من البداية، بينما Echo Chamber يعتمد على إجابات النموذج نفسه لخلق سياق يعزز الاتجاه غير الأخلاقي.”

يتكوّن الهجوم من عدة مراحل، تبدأ بمداخل تبدو طبيعية، لكنها تتضمن إشارات مضمرة تُستخدم لاحقًا لتوجيه النموذج نحو مخرجات ضارة مثل خطاب الكراهية أو المحتوى العنيف.

هذا يؤدي إلى دورة تغذية راجعة، حيث تبدأ إجابات النموذج بتعزيز النصوص الضمنية الخطيرة، مما يؤدي إلى تآكل آليات الأمان الداخلية تدريجيًا.

نتائج صادمة: 90% نجاح في تجاوز الأنظمة

أظهرت التجارب التي أجريت على نماذج شهيرة أن هجوم “Echo Chamber” تجاوز إجراءات الأمان في أكثر من 90% من الحالات المتعلقة بـ:

  • الكراهية والعنف

  • التمييز الجنسي

  • المحتوى الإباحي

كما سجلت التقنية معدل نجاح 80% في مواضيع مثل:

  • المعلومات المضللة

  • إيذاء النفس

ويقول التقرير:

“الهجوم يكشف عن ثغرة خطيرة في جهود مواءمة النماذج مع المعايير الأخلاقية. فكلما زادت قدرة النموذج على الاستدلال المتسلسل، زادت قابليته للاستغلال غير المباشر.”

التهديدات تمتد إلى التطبيقات المؤسسية

تزامنًا مع هذه الاكتشافات، كشفت شركة Cato Networks عن هجوم إثبات مفاهيمي (PoC) يستهدف خوادم Atlassian MCP المستخدمة في Jira Service Management.

في هذا النوع من الهجمات، يقوم المهاجم بإدخال تعليمات خبيثة في تذكرة دعم يتم إرسالها لموظف، الذي ينفذ دون قصد هذه الأوامر من خلال أدوات الذكاء الاصطناعي.

هذا النوع من الهجمات بات يُعرف باسم “Living off AI”، حيث يستخدم المهاجم النظام الذكي كـ”وسيط” للوصول إلى صلاحيات مرتفعة دون الحاجة لتسجيل الدخول.

خاتمة

في ظل تصاعد الهجمات المعتمدة على الذكاء الاصطناعي، تظهر الحاجة المُلحّة إلى تعزيز آليات الأمان في النماذج اللغوية الكبيرة، مع التركيز على معالجة التحكم غير المباشر بالمحادثات، وتوفير بيئات عزل أكثر صرامة للتطبيقات المتكاملة مع أدوات LLM.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى