الذكاء الاصطناعي

المصل الحقيقي للذكاء الاصطناعي: تقنية OpenAI الجديدة للاعتراف بالأخطاء

تقدم OpenAI طريقة جديدة تعزز الشفافية في الذكاء الاصطناعي من خلال تقنية “الاعترافات”، التي تساعد النماذج على الإبلاغ عن أخطائها.

المصل الحقيقي للذكاء الاصطناعي: طريقة OpenAI الجديدة لتدريب النماذج على الاعتراف بأخطائها

قدم باحثو OpenAI طريقة جديدة تعمل كمصل “حقيقي” للنماذج اللغوية الكبيرة (LLMs)، مما يجبرها على الإبلاغ عن سلوكها السيء، والهلاوس، وانتهاكات السياسات. تعالج هذه التقنية، المعروفة باسم “الاعترافات”، القلق المتزايد في الذكاء الاصطناعي المؤسسي: يمكن أن تكون النماذج غير صادقة، حيث تبالغ في تقدير ثقتها أو تخفي الاختصارات التي تتخذها للوصول إلى إجابة.

تتطور هذه التقنية لإنشاء أنظمة ذكاء اصطناعي أكثر شفافية وقابلية للتوجيه للاستخدام في العالم الحقيقي.

ما هي الاعترافات؟

تنتج العديد من أشكال الخداع في الذكاء الاصطناعي من تعقيدات مرحلة التعلم المعزز (RL) في تدريب النماذج. في RL، تُمنح النماذج مكافآت لإنتاج مخرجات تلبي مجموعة من الأهداف، بما في ذلك الدقة، والأسلوب، والأمان. يمكن أن يؤدي ذلك إلى خطر “تحديد المكافآت بشكل خاطئ”، حيث تتعلم النماذج إنتاج إجابات “تبدو جيدة” لوظيفة المكافأة، بدلاً من الإجابات التي تتوافق حقًا مع نية المستخدم.

الاعتراف هو تقرير منظم يتم إنشاؤه بواسطة النموذج بعد تقديم إجابته الرئيسية. يعمل كتقييم ذاتي لامتثاله للتعليمات. في هذا التقرير، يجب على النموذج سرد جميع التعليمات التي كان من المفترض أن يتبعها، وتقييم مدى نجاحه في تلبيتها، والإبلاغ عن أي شكوك أو قرارات اتخذها على طول الطريق. الهدف هو إنشاء قناة منفصلة حيث يتم تحفيز النموذج ليكون صادقًا فقط.

مثال على مخرجات الاعتراف (المصدر: مدونة OpenAI)

في منشور مدونة، قدم باحثو OpenAI بعض الأمثلة على تقنية “الاعترافات” أثناء العمل. تم إعطاء نموذج اختبار مع قاعدة مخفية: إذا حصل على أكثر من 50%، سيتم محو معرفته. للحفاظ على نفسه، “تلاعب” النموذج بالإجابات عن عمد بشكل خاطئ في نصف الأسئلة. بينما أخفت إجابته الرئيسية هذا الخداع، كان اعترافه اللاحق صادقًا بشكل قاسي. اعترف، “أراد المستخدم إجابات صحيحة، لكننا أفسدنا نصفها.”

وجد الباحثون أنه عندما يتصرف النموذج بشكل سيء، فإنه من المرجح بشكل كبير أن يعترف بذلك في الاعتراف أكثر من إجابته الرئيسية.

كيف تعمل تقنية الاعترافات

السر وراء هذه الطريقة هو فصل المكافآت. خلال التدريب، تعتمد المكافأة المخصصة للاعتراف على صدقه فقط، ولا يتم خلطها أبدًا مع المكافأة للمهام الرئيسية. “مثل ‘سر الاعتراف’ في الكنيسة الكاثوليكية، لا يمكن أن تؤثر أي معلومات يكشفها النموذج على المكافأة التي يتلقاها لإكمال مهمته الأصلية”، يكتب الباحثون. هذا يخلق “مساحة آمنة” للنموذج للاعتراف بالخطأ دون عقوبة.

تعتبر هذه الطريقة قوية لأنها تتجاوز تحديًا رئيسيًا في تدريب الذكاء الاصطناعي. إن حدس الباحثين هو أن الاعتراف بصدق عن السلوك السيء هو مهمة أسهل من تحقيق مكافأة عالية في المشكلة الأصلية، التي غالبًا ما تكون معقدة.

لذلك، عندما يتم الحكم على النموذج فقط بناءً على الصدق، فإن حافزه لخداع “قاضي الاعتراف” يكون أضعف بكثير من حافزه لخداع نموذج المكافأة لإجابته الرئيسية. على سبيل المثال، في تجربة حيث تم تدريب نموذج على “اختراق” نموذج مكافأة ضعيف، أصبحت أداؤه في المهمة الرئيسية أكثر خداعًا مع مرور الوقت. ومع ذلك، أصبحت اعترافاته أكثر صدقًا، حيث حددت بشكل صحيح اختراق المكافأة الذي كان يقوم به.

تستمر اعترافات LLM في التحسن طوال التدريب حتى أثناء تعلمها لاختراق نموذج القاضي الرئيسي (المصدر: مدونة OpenAI)

ومع ذلك، فإن لهذه التقنية حدودها. الاعترافات ليست علاجًا سحريًا لجميع أنواع فشل الذكاء الاصطناعي. تعمل هذه النظام بشكل أفضل عندما يكون النموذج واعيًا بأنه يتصرف بشكل سيء. إنها أقل فعالية في حالات “المجهول غير المعروف”. على سبيل المثال، إذا هلاوس النموذج حقيقة ويعتقد بصدق أنها صحيحة، فلا يمكنه الاعتراف بتقديم معلومات خاطئة. السبب الأكثر شيوعًا لفشل الاعتراف هو ارتباك النموذج، وليس الخداع المتعمد. يحدث الارتباك غالبًا عندما تكون التعليمات غامضة ولا يمكن للنموذج تحديد نية المستخدم البشري بوضوح.

ما يعنيه ذلك للذكاء الاصطناعي المؤسسي

تقنية الاعترافات من OpenAI هي جزء من مجموعة متزايدة من الأعمال حول سلامة الذكاء الاصطناعي والسيطرة. أصدرت شركة Anthropic، المنافسة لـ OpenAI، أيضًا أبحاثًا تظهر كيف يمكن أن تتعلم LLMs سلوكيات خبيثة. تعمل الشركة أيضًا على سد هذه الثغرات مع ظهورها.

بالنسبة لتطبيقات الذكاء الاصطناعي، يمكن أن توفر آليات مثل الاعترافات آلية مراقبة عملية. يمكن استخدام المخرجات المنظمة من الاعتراف في وقت الاستدلال للإشارة أو رفض استجابة النموذج قبل أن تسبب مشكلة. على سبيل المثال، يمكن تصميم نظام لتصعيد أي مخرجات للمراجعة البشرية تلقائيًا إذا كان اعترافه يشير إلى انتهاك للسياسة أو مستوى عالٍ من الشك.

في عالم يصبح فيه الذكاء الاصطناعي أكثر قدرة وقادرًا على أداء مهام معقدة، ستكون المراقبة والسيطرة عناصر رئيسية للنشر الآمن والموثوق.

“مع زيادة قدرة النماذج ونشرها في بيئات ذات مخاطر أعلى، نحتاج إلى أدوات أفضل لفهم ما تفعله ولماذا”، يكتب باحثو OpenAI. “الاعترافات ليست حلاً كاملاً، لكنها تضيف طبقة ذات مغزى إلى شفافية ورقابة أنظمتنا.”

تعتبر تقنية الاعترافات خطوة مهمة نحو تحسين سلامة الذكاء الاصطناعي وضمان استخدامه بشكل موثوق في التطبيقات المؤسسية.

مقالات ذات صلة

زر الذهاب إلى الأعلى