هل من الممكن وجود مساعد ذكاء اصطناعي آمن؟

في عالم يتزايد فيه استخدام الذكاء الاصطناعي، تبرز الأسئلة حول أمان هذه التكنولوجيا. هل يمكن أن يكون لدينا مساعد ذكاء اصطناعي آمن؟
هل من الممكن وجود مساعد ذكاء اصطناعي آمن؟
من المهم أن نلاحظ هنا أن حقن الأوامر لم يتسبب بعد في أي كوارث، على الأقل لم يتم الإبلاغ عن أي منها علنًا. ولكن الآن، مع وجود مئات الآلاف من وكلاء OpenClaw تتجول في الإنترنت، قد يبدو حقن الأوامر استراتيجية أكثر جاذبية للمجرمين الإلكترونيين. “تُحفز أدوات مثل هذه الفاعلين الخبيثين لمهاجمة عدد أكبر بكثير من الناس،” كما يقول بابيرنوت.
بناء الحواجز
تم صياغة مصطلح “حقن الأوامر” بواسطة المدون الشهير في مجال نماذج اللغة الكبيرة، سايمون ويليسون، في عام 2022، قبل بضعة أشهر من إصدار ChatGPT. حتى في ذلك الوقت، كان من الممكن أن نلاحظ أن نماذج اللغة الكبيرة ستقدم نوعًا جديدًا تمامًا من الثغرات الأمنية بمجرد استخدامها على نطاق واسع. لا تستطيع نماذج اللغة الكبيرة التمييز بين التعليمات التي تتلقاها من المستخدمين والبيانات التي تستخدمها لتنفيذ تلك التعليمات، مثل رسائل البريد الإلكتروني ونتائج البحث على الويب – بالنسبة لنموذج اللغة الكبيرة، كل ذلك مجرد نص. لذا إذا قام المهاجم بإدراج بضع جمل في رسالة بريد إلكتروني واعتقد نموذج اللغة الكبيرة أنها تعليمات من المستخدم، يمكن للمهاجم أن يجعل النموذج يقوم بأي شيء يريده.
يُعتبر حقن الأوامر مشكلة صعبة، ولا يبدو أنها ستختفي في أي وقت قريب. “لا نملك حقًا دفاعًا سحريًا في الوقت الحالي،” كما تقول داون سونغ، أستاذة علوم الكمبيوتر في جامعة كاليفورنيا، بيركلي. لكن هناك مجتمع أكاديمي قوي يعمل على المشكلة، وقد توصلوا إلى استراتيجيات قد تجعل المساعدات الشخصية الذكية آمنة في النهاية.
من الناحية التقنية، من الممكن استخدام OpenClaw اليوم دون مخاطر حقن الأوامر: فقط لا تقم بتوصيله بالإنترنت. لكن تقييد OpenClaw من قراءة رسائل البريد الإلكتروني الخاصة بك، وإدارة تقويمك، والقيام بأبحاث عبر الإنترنت يقضي على الكثير من الغرض من استخدام مساعد ذكاء اصطناعي. الحيلة في الحماية من حقن الأوامر هي منع نموذج اللغة الكبيرة من الاستجابة لمحاولات الاختطاف مع منحها مساحة لأداء وظيفتها.
تتمثل إحدى الاستراتيجيات في تدريب نموذج اللغة الكبيرة على تجاهل حقن الأوامر. جزء كبير من عملية تطوير نموذج اللغة الكبيرة، يسمى ما بعد التدريب، يتضمن أخذ نموذج يعرف كيفية إنتاج نص واقعي وتحويله إلى مساعد مفيد من خلال “مكافأته” على الإجابة على الأسئلة بشكل مناسب و”معاقبته” عندما يفشل في القيام بذلك. هذه المكافآت والعقوبات مجازية، لكن نموذج اللغة الكبيرة يتعلم منها كما سيتعلم الحيوان. باستخدام هذه العملية، من الممكن تدريب نموذج لغة كبيرة على عدم الاستجابة لأمثلة محددة من حقن الأوامر.
لكن هناك توازن: إذا تم تدريب نموذج اللغة الكبيرة على رفض الأوامر المدخلة بشكل مفرط، فقد يبدأ أيضًا في رفض الطلبات المشروعة من المستخدم. ونظرًا لوجود عنصر أساسي من العشوائية في سلوك نموذج اللغة الكبيرة، حتى النموذج الذي تم تدريبه بشكل فعال لمقاومة حقن الأوامر من المحتمل أن يخطئ بين الحين والآخر.
تتضمن نهجًا آخر إيقاف هجوم حقن الأوامر قبل أن يصل إلى نموذج اللغة الكبيرة. عادةً ما يتضمن ذلك استخدام نموذج لغة كبير متخصص لتحديد ما إذا كانت البيانات المرسلة إلى النموذج الأصلي تحتوي على أي حقن أوامر. ومع ذلك، في دراسة حديثة، فشل أفضل كاشف تمامًا في اكتشاف بعض فئات هجوم حقن الأوامر.
الاستراتيجية الثالثة أكثر تعقيدًا. بدلاً من التحكم في المدخلات إلى نموذج اللغة الكبيرة من خلال اكتشاف ما إذا كانت تحتوي على حقن أوامر، الهدف هو صياغة سياسة توجه مخرجات نموذج اللغة الكبيرة – أي سلوكياته – وتمنعه من القيام بأي شيء ضار. بعض الدفاعات في هذا السياق بسيطة جدًا: إذا كان يُسمح لنموذج اللغة الكبيرة بإرسال بريد إلكتروني فقط إلى عدد قليل من العناوين المعتمدة مسبقًا، على سبيل المثال، فلن يرسل بالتأكيد معلومات بطاقة الائتمان الخاصة بالمستخدم إلى مهاجم. لكن مثل هذه السياسة ستمنع نموذج اللغة الكبيرة من إكمال العديد من المهام المفيدة، مثل البحث والتواصل مع جهات اتصال مهنية محتملة نيابة عن المستخدم.
بينما نواصل تطوير تكنولوجيا الذكاء الاصطناعي، يبقى التحدي الأكبر هو ضمان أمانها وموثوقيتها. يتطلب ذلك جهودًا مستمرة من الباحثين والمطورين.




