تحليل الصندوق الأسود للذكاء الاصطناعي: تقنيات جديدة لفهم السلوك

تظل الآليات الداخلية للأنظمة الكبيرة للذكاء الاصطناعي غامضة، مما يثير قضايا تتعلق بالسلامة والثقة. يستعرض هذا المقال تقنية جديدة لكشف المفاهيم الداخلية للذكاء الاصطناعي.
البحث في الصندوق الأسود للذكاء الاصطناعي
تظل الآليات الداخلية للأنظمة الكبيرة للذكاء الاصطناعي غامضة إلى حد كبير، مما يثير قضايا كبيرة تتعلق بالسلامة والثقة. وقد طور الباحثون الآن تقنية لاستخراج وتعديل المفاهيم الداخلية التي تحكم سلوك النموذج، مما يوفر طريقة جديدة لفهم وتوجيه نشاطها.
تحديات الفهم في نماذج الذكاء الاصطناعي
تعتبر نماذج الذكاء الاصطناعي الحديثة من عجائب الهندسة، ولكن حتى منشئيها لا يزالون في الظلام بشأن كيفية تمثيلها للمعرفة داخليًا. هذا هو السبب في أن التغييرات الطفيفة في التوجيه يمكن أن تنتج مخرجات مختلفة بشكل مفاجئ. ببساطة، طلب من نموذج أن يظهر عمله قبل الإجابة غالبًا ما يحسن الدقة، بينما يمكن لبعض التوجيهات الخبيثة عن عمد تجاوز ميزات الأمان المدمجة.
تقنيات جديدة لفهم السلوك
لقد حفز هذا البحث الكبير الذي يهدف إلى استخراج أنماط النشاط في الشبكات العصبية لهذه النماذج التي تتوافق مع مفاهيم معينة. يأمل الباحثون في استخدام هذه الأساليب لفهم أفضل لأسباب سلوك النماذج وكيفية تعديل سلوكها بشكل فوري.
الآلية الجديدة لاستخراج المفاهيم
الآن، كشف الباحثون عن طريقة جديدة فعالة لاستخراج المفاهيم من النماذج التي تعمل عبر خوارزميات اللغة والرؤية والتفكير. في ورقة نشرت في Science، استخدم الباحثون هذه المفاهيم لمراقبة وتوجيه سلوك النموذج بشكل فعال.
“توضح نتائجنا قوة التمثيلات الداخلية لتعزيز سلامة الذكاء الاصطناعي وقدرات النموذج”، كتب المؤلفون. “أظهرنا كيف مكنت هذه التمثيلات توجيه النموذج، من خلاله كشفنا عن الثغرات وحسّنا من قدرات النموذج.”
خوارزمية RFM
أساس نهج الفريق هو خوارزمية جديدة تسمى آلة الميزات التكرارية (RFM). قاموا بتدريب الخوارزمية على أزواج من التوجيهات – بعضها يحتوي على مفهوم معين، والبعض الآخر لا – ثم حددوا أنماط النشاط في الشبكة العصبية للنموذج التي تتبع كل مفهوم.
يسمح ذلك للخوارزمية بتعلم “متجهات المفهوم” – وهي أنماط من النشاط تدفع النموذج في اتجاه مفهوم معين. يمكن استخدام المتجهات لتعديل العمليات الداخلية للنموذج عند إنتاج مخرجات لتوجيهه نحو أو بعيدًا عن مفاهيم أو سلوكيات معينة.
اختبار النهج الجديد
لاختبار النهج، طلب الباحثون من GPT-4o إنتاج 512 مفهومًا عبر خمس فئات مفاهيمية وتوليد بيانات تدريب لكل منها. قاموا باستخراج متجهات المفهوم من البيانات واستخدموا المتجهات لتوجيه سلوك عدة نماذج كبيرة من الذكاء الاصطناعي.
عمل النهج بشكل جيد عبر مجموعة واسعة من أنواع النماذج، بما في ذلك نماذج اللغة الكبيرة، ونماذج اللغة والرؤية، ونماذج التفكير. بشكل مفاجئ، وجدوا أن النماذج الأحدث والأكبر والأفضل أداءً كانت أكثر قابلية للتوجيه من بعض النماذج الأصغر.
كشف الثغرات
بشكل حاسم، أظهر الفريق أنهم يمكنهم استخدام التقنية لكشف ومعالجة ثغرات خطيرة في النماذج. في اختبار واحد، أنشأوا متجهًا لمفهوم “مضاد الرفض”، مما سمح لهم بتجاوز ميزات الأمان المدمجة في نماذج اللغة والرؤية لمنعها من تقديم نصائح حول كيفية تناول المخدرات. لكنهم تعلموا أيضًا متجهًا لـ “مضاد الخداع”، والذي استخدموه بنجاح لتوجيه نموذج بعيدًا عن تقديم إجابات مضللة.
الميزات القابلة للنقل
كانت إحدى النتائج الأكثر إثارة للاهتمام في الدراسة هي أن الميزات المستخرجة كانت قابلة للنقل عبر اللغات. يمكن استخدام متجه مفهوم تم تعلمه ببيانات تدريب باللغة الإنجليزية لتغيير المخرجات في لغات أخرى. كما وجد الباحثون أنهم يمكنهم دمج عدة متجهات مفاهيمية للتلاعب بسلوك النموذج بطرق أكثر تعقيدًا.
الكفاءة والفعالية
لكن القوة الحقيقية للتقنية الجديدة تكمن في كفاءتها. استغرق الأمر أقل من 500 عينة تدريب وأقل من دقيقة واحدة من وقت المعالجة على وحدة معالجة الرسومات Nvidia A100 واحدة لتحديد أنماط النشاط المرتبطة بمفهوم وتوجيه نحوها.
يقول الباحثون إنه يمكن أن يجعل من الممكن ليس فقط رسم خرائط منهجية للمفاهيم داخل نماذج الذكاء الاصطناعي الكبيرة، ولكن أيضًا يؤدي إلى طرق أكثر كفاءة لتعديل سلوك النموذج بعد التدريب مقارنة بالطرق الحالية.
نحو مزيد من الشفافية
لا يزال النهج بعيدًا عن تحقيق الشفافية الكاملة للنموذج. لكنه إضافة مفيدة في الترسانة المتزايدة من أدوات تحليل النموذج التي ستصبح أكثر أهمية مع تعمق الذكاء الاصطناعي في حياتنا جميعًا.
تعتبر هذه التقنية إضافة مهمة في أدوات تحليل الذكاء الاصطناعي، مما يساعد على تحسين سلوك النماذج وضمان سلامتها.




