Cloudflare: انقطاع الخدمة بسبب خطأ داخلي في التكوين

في حادثة مؤسفة، ألقى Cloudflare باللوم على انقطاع الخدمة الذي أثر على العديد من المواقع والخدمات الرئيسية بسبب خطأ داخلي في التكوين. دعونا نستعرض تفاصيل هذا الحادث وتأثيره.
ألقى Cloudflare باللوم على انقطاع الخدمة الذي أثر على مواقع وخدمات رئيسية لعدة ساعات يوم الثلاثاء على خطأ داخلي في التكوين، مما يبرز مرة أخرى مشكلة الاعتماد المتبادل بين الأطراف الثالثة في نظام الحوسبة السحابية.
وقع الحادث – الذي بدأ في الساعة 11:20 بتوقيت UTC يوم الثلاثاء وأثر على مواقع مثل X، وأوبر، وكانفا، وChatGPT، من بين آخرين – كان يُعتقد في البداية أنه ناتج عن هجوم حجب الخدمة الموزع (DDoS)، وفقًا للمدونة التي كتبها مؤسس Cloudflare والرئيس التنفيذي ماثيو برينس، والتي شرحت الجوانب التقنية للانقطاع.
ومع ذلك، اكتشف الشركة أن المشكلة كانت “تغييرًا في أذونات أحد أنظمة قواعد البيانات لدينا، مما تسبب في إخراج قاعدة البيانات لمدخلات متعددة في ‘ملف الميزات’ المستخدم بواسطة نظام إدارة الروبوتات لدينا”، كتب برينس.
نتيجة لهذا التغيير، تضاعف حجم ملف الميزات ثم تم توزيعه على جميع الآلات في شبكة Cloudflare؛ حيث يقرأ البرنامج الذي يعمل على هذه الأنظمة الملف للحفاظ على نظام إدارة الروبوتات محدثًا مع التهديدات المتغيرة باستمرار.
ومع ذلك، هناك حد على حجم ملفات الميزات، الذي تجاوزته الملف الجديد، وفقًا لبرينس. “هذا تسبب في فشل البرنامج”، مما أدى بدوره إلى عرض المواقع التي تعمل على Cloudflare رسائل “خطأ في الخادم الداخلي” للمستخدمين، كتب.
تفاصيل تقنية
لاحظت Cloudflare أولاً وجود مشكلة في شبكتها عندما اكتشفت أن حجم رموز الحالة HTTP من نوع 5xx بدأ في الارتفاع بشكل كبير فوق المعدل الأساسي، ثم تذبذب بشكل غير عادي. هذا أظهر أن النظام كان يفشل بسبب تحميل ملف الميزات غير الصحيح، كما أوضح برينس.
ما كان ملحوظًا في سلوك النظام هو أنه كان يفشل بشكل متكرر ثم يتعافى، وهو “سلوك غير عادي جدًا لخطأ داخلي”، كما أشار. لهذا السبب اعتقدت Cloudflare في البداية أنها تتعرض لهجوم DDoS.
ومع ذلك، ما أدركه المسؤولون في النهاية هو أن الملف غير المكون كان يتم إنشاؤه كل خمس دقائق بواسطة استعلام يعمل على مجموعة قواعد بيانات ClickHouse، التي كانت تُحدث تدريجيًا لتحسين إدارة الأذونات.
“تم إنشاء بيانات سيئة فقط إذا تم تشغيل الاستعلام على جزء من المجموعة التي تم تحديثها”، كتب برينس. “نتيجة لذلك، كانت هناك فرصة كل خمس دقائق إما لإنشاء مجموعة جيدة أو سيئة من ملفات التكوين التي تم توزيعها بسرعة عبر الشبكة.”
هذا التذبذب جعل من غير الواضح ما كان يحدث حتى في النهاية “كانت كل عقدة ClickHouse تنتج ملف التكوين السيئ واستقر التذبذب في حالة الفشل”، لاحظ برينس.
الحل والاعتذار
كانت Cloudflare قد حلت المشكلة إلى حد كبير بحلول الساعة 14:30 بتوقيت UTC، عندما “كانت حركة المرور الأساسية تتدفق بشكل طبيعي إلى حد كبير”، وفقًا للمنشور؛ بحلول الساعة 17:06 بتوقيت UTC، كانت جميع الأنظمة في Cloudflare تعمل مرة أخرى بشكل طبيعي.
أقر برينس بأهمية Cloudflare في نظام الإنترنت واعتذر عن الحادث، معلنًا أن “أي انقطاع في أي من أنظمتنا غير مقبول”. تقدم الشركة شبكة توصيل المحتوى وتوفر الأمان والخدمات الأخرى لحوالي 20% من جميع المواقع على الإنترنت.
“إنه لأمر مؤلم للغاية أن هناك فترة من الوقت لم تتمكن فيها شبكتنا من توجيه الحركة”، كتب برينس. “نعلم أننا خذلناكم اليوم.”
في الواقع، لم تشهد الشركة انقطاعًا تسبب في توقف معظم حركة المرور الأساسية من التدفق عبر شبكتها منذ عام 2019، على الرغم من أنها واجهت حوادث طفيفة خلال تلك الفترة.
أهمية استمرارية الأعمال
للأسف، لا تزال انقطاعات الشبكة التي تسبب توقف المواقع التجارية الحيوية حدثًا شائعًا إلى حد ما. في العام الماضي، تسبب تحديث خاطئ من CrowdStrike في تعطيل أنظمة مختلفة، بما في ذلك أنظمة الدفع وحجوزات الطيران، مما كلف الشركات حوالي 5.4 مليار دولار وأدى إلى دعاوى قضائية ضد الشركة بسبب فقدان الإيرادات وآثارها السلبية الأخرى. وفي 20 أكتوبر، عانت AWS من انقطاع كبير، ناتج عن مشكلة DNS، أثر على عملاء الخدمات السحابية طوال اليوم.
تثير هذه الحوادث مرة أخرى تساؤلات حول ضعف اعتماد المؤسسات على الإنترنت للعمل بسلاسة ودون مشاكل من أجل بقائها. في الواقع، في عصر تكنولوجيا الذكاء الاصطناعي (AI) والحوسبة الكمومية وغيرها من التقنيات المتقدمة، أصبحت البنية التحتية التي توفر الشبكات التي تدعم هذه التقنيات الآن حيوية مثل شبكة الكهرباء أو إمدادات المياه.
بينما لم يكن الحادث نتيجة لهجوم إلكتروني، فإنه يظهر هشاشة نظام الإنترنت ويظهر الحاجة إلى أن تفهم المؤسسات مكان الاعتماد المتبادل. كما يؤكد على الحاجة المستمرة للمؤسسات لوضع خطط لاستمرارية الأعمال والتعافي من الكوارث لتوفير دعم لأي مشكلات طرف ثالث قد تعطل مواقعها أو خدماتها أو أنشطة أعمالها الأخرى.
قال برينس إن Cloudflare تعمل بالفعل على تعزيز شبكاتها ضد الفشل في المستقبل. تشمل هذه الخطوات تعزيز إدخال ملفات التكوين التي تم إنشاؤها بواسطة Cloudflare بنفس الطريقة التي يتم بها ذلك لمدخلات المستخدم؛ وتمكين مفاتيح قتل عالمية أكثر للميزات؛ والقضاء على القدرة على أن تؤدي تفريغات النواة أو تقارير الأخطاء الأخرى إلى إغراق موارد النظام؛ ومراجعة أوضاع الفشل لظروف الخطأ عبر جميع وحدات الوكيل الأساسية.
تظهر هذه الحادثة مرة أخرى أهمية استمرارية الأعمال والتخطيط للتعافي من الكوارث في عصر يعتمد فيه الكثيرون على الخدمات السحابية. يجب على المؤسسات تعزيز استراتيجياتها لضمان عدم تكرار مثل هذه الحوادث.




