قرارات الاعتماد المدعومة بالذكاء الاصطناعي: تجاهل الأخطاء الأمنية

تعتبر قرارات الاعتماد البرمجي المدعومة بالذكاء الاصطناعي موضوعًا مثيرًا للجدل، حيث تظهر الأبحاث أن هذه النماذج قد تقدم توصيات خاطئة تؤدي إلى مخاطر أمنية.
يجب على المؤسسات أن تفكر مرتين قبل استشارة نماذج الذكاء الاصطناعي بشأن قرارات الاعتماد البرمجي.
وجدت أبحاث جديدة من Sonatype أن النماذج “الحدودية” (المعرفة بأنها أكثر نماذج الذكاء الاصطناعي تقدمًا المتاحة في لحظة معينة) غالبًا ما تولد توصيات خاطئة أو مصنوعة بشكل غير صحيح للاعتمادات البرمجية، مما يمثل مشكلة للمؤسسات التي تعتمد على الذكاء الاصطناعي في توجيه التحديثات والإصلاحات.
حلل فريق أبحاث Sonatype 36,870 توصية فريدة لترقية الاعتمادات عبر Maven Central و npm و PyPI و NuGet بين يونيو وأغسطس 2025. في المجموع، درست شركة DevSecOps ما مجموعه 258,000 توصية تم توليدها بواسطة سبعة نماذج ذكاء اصطناعي من Anthropic و OpenAI و Google.
نشرت Sonatype الجزء الأول من هذه الدراسة، التي ركزت على GPT-5 من OpenAI، في فبراير كجزء من تقريرها لعام 2026 حول حالة سلسلة توريد البرمجيات. وجدت تلك الدراسة أن LLM غالبًا ما أوصى بإصدارات برمجية أو مسارات ترقية أو إصلاحات أمان لم تكن موجودة بالفعل. في الواقع، كانت حوالي 28% من ترقيات الاعتمادات الموصى بها أوهامًا.
أظهرت الجزء الثاني من الدراسة، الذي نُشر يوم الثلاثاء، أنه على الرغم من أن النماذج الحدودية الأحدث ذات التفكير المحسن – بما في ذلك GPT-5.2 و Claude Sonnet 3.7 و 4.5 و Claude Opus 4.6 و Gemini 2.5 Pro و 3 Pro من Google – شهدت تحسينات، إلا أن النماذج لا تزال تولد عددًا كبيرًا من الأوهام والتوصيات الخاطئة.
“في الممارسة العملية، تؤدي هذه الإخفاقات إلى إنفاق غير مجدي على الذكاء الاصطناعي، ووقت مطور ضائع، وتعرض غير محلول للثغرات، وديون تقنية قبل أن يصل الكود إلى الإنتاج،” قالت Sonatype في التقرير.
نصائح ترقية سيئة من نماذج الذكاء الاصطناعي
أكدت Sonatype أن المشكلة ليست في قدرات التفكير للنماذج الحدودية، التي تحسنت بمرور الوقت مقارنة بالنماذج السابقة. بدلاً من ذلك، فإنها تفتقر إلى الذكاء في الوقت الحقيقي من الاعتمادات، بالإضافة إلى عوامل أخرى.
“المشكلة ليست في حجم النموذج ولكن في ذكاء النظام البيئي،” وفقًا لتقرير Sonatype. “تفتقر نماذج الذكاء الاصطناعي إلى سياق الاعتماد والضعف والتوافق وسياق سياسة المؤسسة المطلوبة لاتخاذ قرارات تصحيح آمنة.”
على سبيل المثال، حتى أفضل النماذج أداءً لا تزال تخترع حوالي واحد من كل 16 توصية اعتماد. كما أوصت النماذج الحدودية بـ”لا تغيير” لحوالي ثلث المكونات، مما قلل من الأوهام.
ومع ذلك، قالت Sonatype إن النماذج الأكثر “حذرًا” فشلت في الإشارة إلى الثغرات في المكونات ذات تصنيفات “لا تغيير”، مما أدى إلى ترك 800 و 900 ثغرة حرجة وعالية الخطورة في كود الإنتاج.
في حالات أخرى، قدمت النماذج ثغرات بشكل نشط، من خلال التوصية بإصدارات برمجية تحتوي بالفعل على أخطاء معروفة، مما زاد من خطر تعرض مجموعة الذكاء الاصطناعي نفسها للخطر.
“هذه هي المكتبات المستخدمة لتدريب، وتحسين، وتنظيم، وخدمة LLMs،” ذكر التقرير. “من الصعب تجاهل المفارقة: توصي وكلاء الذكاء الاصطناعي بالترقيات داخل مجموعة الذكاء الاصطناعي نفسها، بينما يفشلون في تجنب الثغرات الحرجة في الأدوات التي تدعمهم.”
يقول براين فوكس، المؤسس المشارك ورئيس التكنولوجيا في Sonatype، إن النصيحة السيئة التي تقدمها نماذج الذكاء الاصطناعي تخلق كمية كبيرة من الديون التقنية للمؤسسات، وغالبًا ما تكون من السهل تفويتها. تعرف المؤسسات عمومًا أن نماذج الذكاء الاصطناعي ارتكبت أخطاء، كما يقول، لكن أبحاث Sonatype تظهر أن الأخطاء في توصيات الاعتماد البرمجي “خفية، منظمة، وتصبح بهدوء جزءًا من العمل التطويري العادي.”
يخبر فوكس Dark Reading، “أخطر نسخة من هذه المشكلة ليست عندما يعطيك النموذج شيئًا مكسورًا بوضوح. إنها عندما تعطيك شيئًا معقولًا يحافظ على المخاطر، ويفوت المسار الأفضل للترقية، ويبدو قريبًا بما يكفي للشحن.”
إضافة ذكاء الاعتماد والسياق إلى الذكاء الاصطناعي
أظهرت دراسة Sonatype أن “تأصيل” نماذج الذكاء الاصطناعي بذكاء وسياق مباشر أدى إلى نتائج أفضل بشكل كبير. قارن الشركة النماذج الحدودية بنهجها الهجين الخاص، الذي يطبق ذكاء في الوقت الحقيقي في وقت الاستدلال، ووجدت أن الأخير قدم تقليلًا تقريبًا بنسبة 70% في المخاطر الحرجة والعالية للمؤسسات.
كجزء من تجربة، زودت Sonatype GPT-5 Nano، الذي هو الأصغر والأرخص من نماذج GPT-5، بأداة واحدة تقوم بالاستدعاء مدعومة بواجهة برمجة التطبيقات لتوصيات الإصدارات من Sonatype Guide. أدى توفير النماذج بمعلومات إضافية، مثل مرشحات الترقية، وعدد الثغرات، ودرجات ثقة المطورين في المنصة، إلى تقليل كبير في الثغرات مقارنة بالنماذج غير المدعومة.
“لا يقتصر التأصيل على منع الأوهام؛ بل يوجه النموذج نحو الإصدارات التي تحتوي على عدد أقل من الثغرات المعروفة عندما لا يوجد خيار مثالي،” ذكر التقرير.
يقول فوكس إنه بدون بيانات السجل الحية، أو معلومات الثغرات، أو سياق التوافق، ستخطئ نماذج الذكاء الاصطناعي – وهي أخطاء مكلفة للإصلاح. وللأسف، فإن إضافة إنسان في الحلقة لهذه العملية من غير المحتمل أن تمنع مثل هذه الأخطاء.
“في تلك المرحلة، تطلب من البشر تنظيف قرارات لم يكن لدى النظام ما يكفي من الحقيقة ليجعلها بشكل جيد في المقام الأول،” يقول. “يجب على البشر وضع السياسات والقيود. لا يزال النظام بحاجة إلى أن يكون مؤصلًا بذكاء البرمجيات في الوقت الحقيقي.”
في ضوء هذه النتائج، من الضروري أن تتبنى المؤسسات استراتيجيات لتحسين دقة نماذج الذكاء الاصطناعي في قرارات الاعتماد البرمجي.




