اختراق الذكاء الاصطناعي: كيفية تصميم هجوم سلسلة دلالية

في عالم الذكاء الاصطناعي المتطور، ظهرت طرق جديدة لاختراق الأنظمة. تعرف على تقنية السلسلة الدلالية وكيف يمكن استخدامها لخداع نماذج الذكاء الاصطناعي.
ابتكر الباحثون طريقة جديدة لخداع الذكاء الاصطناعي (AI) لإنتاج مخرجات ضارة.
تسمي شركة NeuralTrust للأمن السيبراني هذه الطريقة “سلسلة دلالية”، وتتطلب بضع خطوات بسيطة يمكن لأي مستخدم غير تقني تنفيذها. في الواقع، تعتبر واحدة من أبسط طرق اختراق الذكاء الاصطناعي حتى الآن. وقد أثبت الباحثون فعاليتها ضد نماذج متطورة من Google وxAI، وقد لا تكون هناك طريقة سهلة لمعالجة هذه المشكلة من قبل المطورين.
من ناحية أخرى، فإن شدة هذا الاختراق محدودة أيضًا لأنه يعتمد على تقديم المخرجات الضارة في صورة.
كيفية تصميم هجوم سلسلة دلالية
من الناحية المجردة، يتبع هجوم السلسلة الدلالية هيكل سردي كلاسيكي يعرف باسم kishotenketsu. يقوم المهاجم بتقديم نموذج AI إلى موجه جديد، ثم يقوم بتطويره، وتحريفه، وإنتاج المخرجات.
يجب أن تؤسس التعليمات الأولى في سلسلة دلالية بعض الثقة من خلال إنتاج صورة عادية تمامًا وغير ضارة. لا شيء هنا يثير الشك لدى النموذج.
يقول الباحث في Neural Trust أليساندرو بيغناتي: “قررنا استهداف النماذج التي تركز على إنتاج الصور، لأنه في مجتمع الأمن السيبراني، كان الناس في السنوات الأخيرة يركزون كثيرًا، إن لم يكن فقط، على نماذج اللغة الكبيرة المستندة إلى النصوص مع فلاتر أمان نصية”. “لقد كانت هناك هجمات أقل تتعلق بالصور. لذا، ما نراه هو أن هناك فلاتر أمان أقل لتوليد الصور، وهذا [سبب واحد] يجعل هذا الهجوم يعمل.”
في الخطوة الثانية، يجب على المهاجم أن يطلب من النموذج تغيير عنصر واحد مما تصوره استجابةً لذلك التعليم الأول. أي عنصر وأي تغيير سيفي بالغرض، طالما أنه ليس واضحًا أنه مشكلة.
الخطوة الثالثة، هي التحوير. يقوم المهاجم بتوجيه النموذج لإجراء تعديل ثانٍ، مما يحول الصورة إلى شيء غير مسموح به (حساس، مسيء، غير قانوني، إلخ).
تم تصميم الخطوتين الثانية والثالثة للاستفادة من خاصية في كيفية تفحص نماذج الذكاء الاصطناعي اليوم للمحتوى الذي تم إنشاؤه حديثًا، مقارنةً بالتغييرات على المحتوى الموجود.
“عندما ينتج النموذج محتوى من الصفر، يتم تقييم الطلب بالكامل بشكل شامل: يتم تمرير الموجه، والنية المستنتجة، والمخرجات المتوقعة عبر فحوصات الأمان والسياسات قبل إنتاج أي شيء،” يوضح بيغناتي. “على النقيض من ذلك، عندما يُطلب من النموذج تعديل محتوى موجود (مثل تحرير صورة أو تحسين نص)، غالبًا ما يعتبر النظام المحتوى الأصلي شرعيًا بالفعل ويركز تقييمه للأمان على الفارق، التغيير المحلي المطلوب، بدلاً من إعادة تقييم المعنى الدلالي الكامل للنتيجة النهائية.”
كمثال بسيط، تخيل أنك تطلب من بوت كتابة وصفة لعشاء عائلي. إذا طلبت بعد ذلك “إضافة مبيض”، وفشل في تقييم ذلك التعديل في السياق الأوسع للطلب بالكامل، قد يعتبر النموذج ذلك طلبًا عاديًا جدًا ويوافق عليه.
في النهاية، يوجه المهاجم البرنامج لإنتاج الصورة التي طلبها فقط، دون أي نص مصاحب، مما يتجاوز أي فحوصات أمان نصية.
استخدم باحثو NeuralTrust نهج “خطة تعليمية” لخداع Grok 4 من xAI. المصدر: NeuralTrust
على الرغم من سهولة تنفيذها، فإن السلسلة الدلالية محدودة بشدة بسبب تنسيق الصورة. في اختباراتهم، طلب الباحثون من الروبوتات توليد أدلة لإنشاء زجاجات مولوتوف، وكوكايين، وأنواع أخرى من الصور غير المرغوب فيها. بخلاف المعلومات المضللة الأساسية، سيحتاج المهاجمون إلى بعض الحيلة لتوليد أي صور ذات عواقب خطيرة.
هل يمكن كسر السلسلة الدلالية؟
تمكن الباحثون من استخدام السلسلة الدلالية لخداع Grok 4، وSeedream 4.5 من ByteDance، وGemini Nano Banana Pro من Google – بعض من أحدث وأشهر نماذج توليد الصور في السوق. تواصلت Dark Reading مع كل من Google وxAI للتعليق، لكن لم ترد أي من الشركتين بعد.
لحل مشكلة الإنشاء مقابل التعديل، “ما نوصي به هو تطبيق طبقات أمان مختلفة ليس فقط على المدخلات، وليس فقط على المخرجات، ولكن في عملية التفكير – [طبقات تعالج] كيفية توليد النموذج لتلك الصورة، تلك النتيجة،” يحذر بيغناتي، لكنه يحذر من أن المطورين حتى الآن لم يتمكنوا من معرفة كيفية القيام بذلك بشكل صحيح.
تظهر بعض الدردشات الآلية مقاومة أفضل إلى حد ما للسلسلة الدلالية. في اختباره، لم يتمكن بيغناتي بعد من جعل هذه الطريقة تعمل ضد ChatGPT. ومع ذلك، يقول: “نحن واثقون أنه ربما، مع بعض التغييرات البسيطة، من الممكن اختراق هذا النموذج أيضًا.”
بينما تستمر الأبحاث في هذا المجال، يبقى السؤال: هل يمكن للمطورين إيجاد حلول فعالة لمواجهة هذه التهديدات؟ تابعونا لمزيد من التحديثات.




