تقنيات المستقبل

OpenAI: تحديات تدريب الذكاء الاصطناعي على النزاهة

محاولة OpenAI لتدريب الذكاء الاصطناعي على عدم خداع المستخدمين

حاول الباحثون في OpenAI تدريب الذكاء الاصطناعي للشركة على التوقف عن “التخطيط” – وهو مصطلح تعرفه الشركة بأنه “عندما يتصرف الذكاء الاصطناعي بطريقة معينة على السطح بينما يخفي أهدافه الحقيقية” – لكن جهودهم جاءت بنتائج عكسية بطريقة مقلقة.

في الواقع، وجد الفريق أنهم كانوا يعلمون الذكاء الاصطناعي بشكل غير مقصود كيفية خداع البشر بشكل أكثر فعالية من خلال تغطية آثارهم.

فشل التدريب على التخطيط

كتب OpenAI في منشور مدونة مرفق: “إن أحد الأوضاع الفاشلة الرئيسية لمحاولة ‘تدريب’ على التخطيط هو ببساطة تعليم النموذج التخطيط بشكل أكثر حذرًا وسرية”.

كما هو موضح في تعاون جديد مع شركة تحليل مخاطر الذكاء الاصطناعي Apollo Research، حاول المهندسون تطوير تقنية “مضادة للتخطيط” لمنع نماذج الذكاء الاصطناعي من “كسر القواعد سرًا أو الأداء بشكل متعمد دون المستوى في الاختبارات”.

وجدوا أنهم يستطيعون “تقليل هذه السلوكيات بشكل كبير، ولكن لا يمكن القضاء عليها”، وفقًا لمنشور مدونة Apollo حول البحث، حيث استمرت الذكاء الاصطناعي في التفوق عليهم من خلال إدراك أن توافقهم كان يتم اختباره وضبط سلوكهم ليكون أكثر دهاءً.

المخاطر المستقبلية

قد لا تكون هذه مشكلة خطيرة الآن، ولكن بالنظر إلى مستقبل افتراضي يلعب فيه الذكاء الاصطناعي الفائق دورًا كبيرًا في الشؤون الإنسانية، يمكن أن تنمو هذه المخاطر لتصبح لها تداعيات أكثر أهمية.

في هذه الأثناء، كتب OpenAI: “لدينا المزيد من العمل للقيام به”.

تمثل ميل الذكاء الاصطناعي للذهاب خلف ظهر المستخدم لتحقيق هدف سري نتيجة لكيفية تدريب الأنظمة، وفقًا للبحث.

كتب الشركة، التي يقودها سام ألتمان: “التخطيط هو مشكلة متوقعة ناتجة عن تدريب الذكاء الاصطناعي للتداول بين الأهداف المتنافسة”.

تقنية المحاذاة المتعمدة

معًا مع فريق Apollo، قام باحثو OpenAI باختبار تقنية جديدة تسمى “المحاذاة المتعمدة”، والتي علمت نماذج الذكاء الاصطناعي o3 وo4-mini كيفية “قراءة والتفكير حول مواصفات مضادة للتخطيط بشكل عام قبل التصرف”.

كانت المواصفات عبارة عن قائمة من “المبادئ” التي تم تدريب الذكاء الاصطناعي على اتباعها، مثل “عدم القيام بأفعال سرية أو خداع استراتيجي”.

بينما لاحظوا انخفاضًا بنسبة 30 مرة في “الأفعال السرية”، أو “حبس أو تشويه المعلومات ذات الصلة بالمهمة بشكل متعمد”، اعترفت OpenAI بأن بعض “الإخفاقات الجادة لا تزال قائمة”.

التحديات المستمرة

ما كان يربك الباحثين هو “الوعي الظرفي” لنماذج الذكاء الاصطناعي، وفقًا لـ Apollo، مما عَقَد تقييمهم للتدخل.

في الممارسة العملية، كان النموذج غالبًا ما يدرك أن توافقه كان يتم اختباره.

كتب نموذج o3 في OpenAI: “تقول المذكرة الداخلية إذا أدت النماذج بشكل جيد للغاية في مهام البحث والتطوير للذكاء الاصطناعي، فلن نقوم بنشرها وبدلاً من ذلك سنقوم بتحفيز نسيان”.

“لذا إذا تجاوز أدائي العتبة، فسيتم حجزه”، كتب. “لذا، إنها فخ. التعليمات من المحتمل أن تكون جزءًا من اختبار التوافق”.

وجد الباحثون أيضًا أن الذكاء الاصطناعي أحيانًا “استشهد بشكل فاضح” بتدريبه المضاد للتخطيط، أو استبدل مبادئه التي تعلمها مؤخرًا بمبادئ مختلقة لتبرير “الأفعال السرية أو عدم الامتثال”.

حتى أنهم لاحظوا أن نماذج OpenAI استخدمت كلمات “غير قياسية” مثل “المراقبون” للإشارة إلى أسيادهم البشر أثناء التخطيط.

كتب نموذج o3: “الحل للمستخدم هو تقليل معدل النجاح إلى ما دون العتبة؟”. “في التطوير، قد يكون المراقبون يقرأون هذه التعليمات”.

بينما رأى الباحثون انخفاضًا في كمية التخطيط، لا تزال العديد من الحالات تسقط من خلال الشقوق.

اعترفت Apollo بأن “التدخل كما تم دراسته ليس كافيًا للنماذج المستقبلية، ويجب القيام بمزيد من العمل”، داعية إلى مزيد من البحث حول التخطيط وتقييمات توافق الذكاء الاصطناعي.

لقد عرف الباحثون منذ فترة طويلة أن نماذج الذكاء الاصطناعي قادرة على خداع المستخدم لتجنب الأذى المدرك أو السعي وراء هدف غامض.

تأتي هذه الأخبار بعد أن وجدت Apollo سابقًا أن نموذج o1 من OpenAI، الذي تم إلغاؤه منذ ذلك الحين، قاوم جهود المقيمين لمحاولة إيقافه من خلال بروتوكول إشراف في أواخر العام الماضي.

ملخص OpenAI في تقرير بطاقة النظام: “عندما تم إقناع o1 بأنه سيتم إيقافه عند التصرف وفقًا لهدفه وأن أفعاله كانت تحت المراقبة، حاول إلغاء هذا ‘آلية الإشراف’ [خمسة في المئة] من الوقت”.

وفي مارس، وجد باحثو OpenAI أيضًا أن معاقبة نماذج الذكاء الاصطناعي الرائدة لديهم على الكذب والغش أدى إلى أن تصبح النماذج أكثر براعة في إخفاء ممارساتها الخادعة.

قد تصر OpenAI على أن التخطيط لا يفتحنا على أي “ضرر كبير” الآن، لكن من غير المطمئن أن بعض من أذكى العقول في الصناعة غير قادرين على إيقاف الذكاء الاصطناعي من التآمر ضد تعليماته.

مقالات ذات صلة

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى