تكشف أمازون عن سبب انقطاع خدمة AWS الذي أدى إلى نقل كل شيء من البنوك إلى الأسرة الذكية إلى وضع عدم الاتصال | أمازون
كشفت أمازون عن سبب هذا الأسبوع انقطاع خدمة AWS لمدة ساعات، الذي جعل كل شيء بدءًا من Signal وحتى الأسرة الذكية غير متصل بالإنترنت، كان خطأً في برنامج التشغيل الآلي كان له عواقب واسعة النطاق.
في مخطط طويل حول سبب الانقطاع الذي نُشر يوم الخميس، كشفت AWS عن مجموعة متتالية من الأحداث التي أدت إلى تعطيل آلاف المواقع والتطبيقات التي تستضيف خدماتها مع الشركة.
وقالت AWS إن العملاء لم يتمكنوا من الاتصال بـ DynamoDB، وهو نظام قاعدة البيانات الخاص بها حيث يقوم عملاء AWS بتخزينه، بسبب “خلل كامن في نظام إدارة DNS الآلي (نظام اسم المجال) للخدمة”.
يحتفظ DynamoDB بمئات الآلاف من سجلات DNS. ويستخدم الأتمتة لمراقبة النظام لضمان تحديث السجلات بشكل متكرر لضمان إضافة سعة إضافية حسب الحاجة، ومعالجة أعطال الأجهزة وتوزيع حركة المرور بكفاءة.
قالت AWS إن السبب الجذري للمشكلة هو سجل DNS الفارغ لمنطقة مركز بيانات US-East-1 ومقرها فيرجينيا. فشل إصلاح الخطأ تلقائيًا، وتطلب تدخل المشغل اليدوي لتصحيحه.
قالت AWS إنها قامت بتعطيل مخطط DynamoDB DNS وأتمتة مُنشئ DNS في جميع أنحاء العالم بينما تعمل على إصلاح الظروف التي أدت إلى انقطاع الخدمة وإضافة المزيد من الحماية.
تسببت المشكلة أيضًا في انقطاع أدوات AWS الأخرى نتيجة لذلك.
كانت المنصات بما في ذلك Signal وSnapchat وRoblox وDuolingo، بالإضافة إلى خدمات مثل المواقع المصرفية وشركة Ring Doorbell، من بين 2000 شركة تأثرت بانقطاع الخدمة، وفقًا لموقع Downdetector – وهو موقع يراقب انقطاع الإنترنت – مع أكثر من 8.1 مليون تقرير عن مشكلات من المستخدمين في جميع أنحاء العالم.
وبينما تمت استعادة الخدمات في غضون ساعات، إلا أن تأثير الانقطاع كان محسوسًا على نطاق واسع.
عملاء ثمانية النوم – شركة أسرة ذكية تتصل بالإنترنت للتحكم في درجة حرارة سرير الشخص وميله – وجدت أنها غير قادرة على ضبط السرير أو درجة حرارة السرير أثناء انقطاع التيار الكهربائي لأنها لم تتمكن من الاتصال بالسرير في تطبيق الهاتف الخاص بها.
واعتذر الرئيس التنفيذي للشركة ماتيو فرانشيسكيتي عن ذلك العملاء على X وأطلقت هذا الأسبوع تحديثًا لخدماتها يسمح للمستخدمين بالتحكم في وظائف السرير المهمة عبر البلوتوث في حالة انقطاع الخدمة.
وقالت الدكتورة سويليت دريفوس، محاضرة في أنظمة الحوسبة والمعلومات في جامعة ملبورن، إن انقطاع الخدمة أظهر مدى اعتماد العالم على نقاط فشل فردية على الإنترنت.
وقالت: “لا تقتصر هذه النقطة على AWS فقط – فهي أكبر مزود للخدمات السحابية بنسبة 30% أو نحو ذلك من السوق – ولكنها تتعلق بالسحابة ككل، وهي في الأساس ثلاث شركات فقط”.
“لقد تم تصميم الإنترنت ليكون مرنًا؛ حيث توجد العديد من القنوات الأخرى للتوجيه حول المشكلات أو الهجمات، لكننا فقدنا بعضًا من تلك المرونة عندما أصبحنا معتمدين بشكل كبير على حفنة من شركات التكنولوجيا العملاقة لتوفير ليس فقط تخزين البيانات ولكن أيضًا خدمات البيانات المنزلية.”