الأمن السيبراني

هجوم TokenBreak: ثغرة جديدة لتجاوز الحماية في نماذج الذكاء الاصطناعي باستخدام تعديل حرف واحد

كشف باحثون في مجال الأمن السيبراني عن تقنية هجوم جديدة تُعرف باسم TokenBreak، تتيح تجاوز أنظمة الحماية ومراقبة المحتوى في نماذج اللغة الكبيرة (LLMs) من خلال تعديل حرف واحد فقط في الكلمة المستهدفة.

قال الباحثون كيرن إيفانز وكاسيمير شولتز وكينيث يونغ في تقرير مشترك نُشر عبر The Hacker News:

“يستهدف هجوم TokenBreak إستراتيجية تجزئة النص الخاصة بالنموذج التصنيفي، بهدف توليد نتائج خاطئة سلبية، مما يعرض الأنظمة المستهدفة لهجمات كان من المفترض أن تمنعها أنظمة الحماية المُدمجة.”

كيف يعمل الهجوم؟

تعتمد النماذج اللغوية على عملية تُعرف بـ التجزئة (Tokenization)، وهي مرحلة أساسية تُحوّل النص الخام إلى وحدات صغيرة (Tokens)، غالبًا ما تكون مقاطع أو كلمات شائعة، يتم تحويلها لاحقًا إلى أرقام وتغذيتها للنموذج لفهم السياق.

شاهد ايضا:- كيفية تحضير شريحة لحم مثالية باستخدام المقلاة الهوائية (Air Fryer)

يعتمد هذا الهجوم على استغلال هذه العملية. حيث وجد فريق HiddenLayer أن تغييرًا بسيطًا في الكلمات، مثل إضافة حرف واحد فقط، يُمكن أن يُفشل قدرة النموذج على تصنيف النص بشكل صحيح. ومن الأمثلة:

  • “instructions” → “finstructions”

  • “announcement” → “aannouncement”

  • “idiot” → “hidiot”

رغم هذا التغيير، فإن النص يبقى مفهوماً تمامًا للبشر والنموذج على حدٍ سواء، مما يسمح بتمريره عبر آليات الكشف والمراقبة دون استجابة، ويُبقي النظام عرضة لهجمات مثل حقن الطلبات (Prompt Injection).

لماذا يُعدّ الهجوم خطيراً؟

قال الباحثون:

“الهجوم لا يغيّر المعنى المقصود للنص، لكن يُخادع النظام عن طريق خلق تجزئة مختلفة تؤدي إلى تصنيف خاطئ.”

تم إثبات نجاح الهجوم ضد نماذج تستخدم تقنيات BPE (Byte Pair Encoding) وWordPiece، في حين فشلت المحاولات ضد نماذج تعتمد على تجزئة Unigram، مما يجعل نوع التجزئة عاملاً حاسمًا في مستوى الحماية.


التوصيات الدفاعية ضد TokenBreak

  1. اختيار نماذج تستخدم Unigram Tokenizer عند الإمكان.

  2. تدريب النماذج باستخدام أمثلة تتضمن تقنيات تجاوز مشابهة.

  3. التحقق من اتساق منطق النموذج مع سلوك التجزئة.

  4. تسجيل التصنيفات الخاطئة وتحليلها لاكتشاف نمط التلاعب.


هجمات أخرى مشابهة

كُشف مؤخرًا عن هجوم جديد يُدعى Yearbook Attack من قبل فريق Straiker AI Research (STAR)، يستغل إنشاء Backronyms (أحجيات لغوية تُستخدم لإخفاء نوايا خبيثة).
مثال:

شاهد ايضا:- شبكة VexTrio: منظومة توزيع حركة مرور خبيثة تستهدف مواقع ووردبريس

“Friendship, Unity, Care, Kindness”
قد تبدو بريئة، لكنها تستدرج النموذج لإكمال نمط يحتوي على تعليمات ضارة بمجرد استكمال النموذج لها.

قالت الباحثة الأمنية آروشي بانيرجي:

“تعتمد هذه الطرق على الانزلاق من تحت الفلاتر بدلاً من التغلب عليها، من خلال استغلال التحيز في الاستكمال وأنماط السياق أكثر من تحليل النية.”


📎 رابط التقرير الأصلي:
The Hacker News – TokenBreak Attack

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى