فيس بوك يكشف التفاصيل الكاملة لانقطاع الخدمة أول أمس ولا وجود لهجمات

فيس بوك
أعلن فيس بوك في وقت متأخر من مساء امس تفاصيلا جديدة حول حادثة انقطاع الخدمة التي وقعت أول أمس الاثنين 4 أكتوبر، وورد فيها إن الانقطاع كان بسبب خطأ في أعمال الصيانة الدورية، نتج عنه خلل تعرض له النظام الذي يدير سعة شبكة فيس بوك الأساسية العالمية، وهي الشبكة الفقرية التي أنشاها فيس بوك لربط جميع مرافق الحوسبة لديه، والتي تتكون من عشرات الآلاف من الأميال من كابلات الألياف الضوئية التي تعبر الكرة الأرضية وتربط جميع مراكز بيانته، ولم يذكر وجود أي هجمات لقراصنة أو مخترقين من الخارج.
خطأ بأعمال الصيانة الدورية يعزل شبكة فيس بوك الداخلية عن الانترنت
وفي مجمله، لم يختلف البيان الرسمي لأسباب الأزمة من قبل فيس بوك، عن التحليل الذي انتهي إليه الخبراء يوم أمس، حيث ارجع الاثنان الأزمة إلى خلل في أنظمة توجيه وإدارة المرور بشبكة فيس بوك الفقرية، قطعت التواصل بين كل من نظام نطاقات الأسماء “دي ان اس” الذي تعمل به فيس بوك عبر الإنترنت، بروتوكول البوابة الخارجية، الذي يعمل داخليا في فيس بوك ويربط بينها وبين فضاء الانترنت ككل، وجاء الاختلاف الوحيد بين الحالتين، في أن المحللين أرجعوا سبب الخلل إلي بعض أنشطة مشروع دمج البنية التحتية المعلوماتية لكل من فيس بوك وانستجرام وواتس آب في بنية واحدة مركزية، في حين ارجع بيان فيس بوك الرسمي السبب إلي خطأ في عمليات الصيانة الروتينية العادية لمراكز البيانات.
أعمال مراكز البيانات
وقال سانتوش جاناردان احد كبار مهندسي فيس بوك في تدوينه نشرت قبل ساعات علي قسم الهندسة والشبكات بالمدونة الرسمية لفيس بوك إن مراكز البيانات هذه تأتي في أشكال مختلفة، بعضها عبارة عن مبانٍ ضخمة تضم ملايين الأجهزة التي تخزن البيانات وتشغل الأحمال الحاسوبية الثقيلة التي تحافظ على تشغيل المنصات ، والبعض الآخر عبارة عن منشآت أصغر تربط شبكتنا الأساسية بالإنترنت الأوسع والأشخاص الذين يستخدمون منصاتنا.
وعند فتح أحد تطبيقاتنا وتحميل خلاصتك أو رسائلك ، ينتقل طلب التطبيق للبيانات من جهازك إلى أقرب منشأة ، والتي تتواصل بعد ذلك مباشرةً عبر شبكتنا الأساسية إلى مركز بيانات أكبر، وهذا هو المكان الذي يتم فيه استرداد المعلومات التي يحتاجها تطبيقك ومعالجتها ، وإرسالها مرة أخرى عبر الشبكة إلى هاتفك، وتتم إدارة حركة البيانات بين جميع مرافق الحوسبة هذه بواسطة أجهزة توجيه ، والتي تحدد مكان إرسال جميع البيانات الواردة والصادرة.
خطأ في أعمال الصيانة
إجراءات الحماية المعقدة بمراكز البيانات تطيل أمد الازمة الي 7 ساعات
أشار سانتوش إلي أنه في العمل اليومي المكثف لصيانة هذه البنية التحتية ، غالبًا ما يحتاج المهندسون إلى المشاركة في العمود الفقري دون اتصال للصيانة، ربما إصلاح خط الألياف أو إضافة المزيد من السعة أو تحديث البرنامج على جهاز التوجيه نفسه، وكان هذا هو السبب الرئيس في انقطاع الخدمة ، فخلال إحدى وظائف الصيانة الروتينية هذه ، تم إصدار أمر بهدف تقييم مدى توفر قدرة العمود الفقري العالمية ، والتي أدت دون قصد إلى قطع جميع الاتصالات في شبكتنا الأساسية ، مما أدى إلى فصل مراكز بيانات بيانات فيس بوك بشكل فعال على مستوى العالم، وقد تم تصميم أنظمتنا لتدقيق أوامر مثل هذه لمنع مثل هذه الأخطاء ، ولكن خطأ في أداة التدقيق هذه منعها من إيقاف الأمر بشكل صحيح.
انقطاع كامل
تسبب هذا التغيير في انقطاع كامل لاتصالات الخادم لدينا بين مراكز البيانات لدينا والإنترنت. وتسبب هذا الفقد الكامل للاتصال في مشكلة ثانية جعلت الأمور أسوأ، وإحدى الوظائف التي تؤديها المنشآت الأصغر هي الرد على استفسارات نظام نطاق الأسماء ” دي ان اس”، وهو دفتر عناوين الإنترنت ، مما يتيح ترجمة أسماء الويب البسيطة التي نكتبها في المتصفحات إلى عناوين رقمية “آي بي” محددة للخادم، وتتم الإجابة على استفسارات الترجمة هذه من خلال خوادم الأسماء الموثوقة التي تشغل  عناوين “أي بي”معروفة جيدًا ، والتي يتم الإعلان عنها بدورها لبقية الإنترنت عبر بروتوكول آخر يسمى بروتوكول البوابة الخارجية.
ولضمان التشغيل الموثوق به ، تقوم خوادم دي ان اس الخاصة بفيس بوك بتعطيل تنبيهات بروتوكول البوابة الخارجية إذا لم تتمكن هي نفسها من التواصل مباشرة مع مراكز البيانات، معتبرة أن ذلك مؤشر علي اتصال غير صحي بالشبكة، وفي الانقطاع الأخير، تمت  إزالة العمود الفقري للشبكة بالكامل من التشغيل، وكانت النتيجة النهائية أن خوادم دي ان اس الخاصة بفيس بوك أصبحت غير قابلة للوصول، على الرغم من أنها كانت لا تزال تعمل، وهذا جعل من المستحيل على بقية الإنترنت العثور على خوادمنا.
أكد سانتوش أن كل هذا حدث بسرعة كبيرة، وبينما عمل مهندسونا على معرفة ما كان يحدث ولماذا ، واجهوا عقبتين كبيرتين: أولاً ، لم يكن من الممكن الوصول إلى مراكز البيانات الخاصة بنا من خلال وسائلنا العادية لأن شبكاتهم كانت معطلة ، وثانيًا إن الخسارة الكلية لخوادم دي إن اس عطلت العديد من الأدوات الداخلية التي نستخدمها عادةً للتحقيق في حالات انقطاع الخدمة وحلها.
صعوبة الوصول
تدريبات “العاصفة الالكترونية” ساعدت بإعادة الخدمة تدريجيا بنجاح
وكان وصولنا الأساسي إلى الشبكة من البعد معطلا، لذلك أرسلنا مهندسين في الموقع إلى مراكز البيانات لجعلهم يصححون المشكلة ويعيدون تشغيل الأنظمة، لكن هذا استغرق وقتًا ، لأن هذه المرافق مصممة مع وضع مستويات عالية من الأمان المادي وأمن النظام في الاعتبار، ومن الصعب الدخول إليها ، وبمجرد دخولك ، تم تصميم الأجهزة وأجهزة التوجيه بحيث يصعب تعديلها حتى عندما يكون لديك وصول فعلي إليها، لذلك استغرق الأمر وقتًا إضافيًا لتنشيط بروتوكولات الوصول الآمن اللازمة لجعل الأشخاص في الموقع وقادرين على العمل على الخوادم، عندها فقط يمكننا تأكيد المشكلة وإعادة العمود الفقري لشبكة فيس بوك إلى الإنترنت، بمجرد استعادة اتصال الشبكة الأساسية الخاص بنا عبر مناطق مركز البيانات لدينا ، عاد كل شيء معه. لكن المشكلة لم تنته بعد، لأن إعادة تشغيل الخدمات مرة واحدة قد يتسبب في جولة جديدة من الأعطال بسبب زيادة حركة المرور، ولذلك تم إعادة الخدمة تدريجيا، بالاستفادة من الدروس والخبرات التي تم الحصول عليها من تدريبات “العاصفة الالكترونية” السابقة، التي يتم فيها محاكاة وقوع انقطاع شامل مفاجئ، وكيفية إعادة الخدمة لحالتها.
بطء الحماية العالية
أكد سانتوش أن نظم الحماية العالية والمعقدة كانت من أسباب البطء في إعادة الخدمة، وقال: لقد قمنا بعمل مكثف لتقوية أنظمتنا لمنع الوصول غير المصرح به ، وكان من المثير للاهتمام أن نرى كيف أدى هذا التعقيد إلى إبطائنا لأننا حاولنا التعافي من انقطاع ناتج ليس عن نشاط ضار ، ولكن خطأ من صنعنا، وأعتقد أن مثل هذه المقايضة تستحق العناء، فهي زيادة كبيرة في الأمن اليومي مقابل انتعاش أبطأ من حدث نادر مثل هذا الذي وقع.