
1 июня в 3-55 ночи по МСК, в датацентре ThePlanet Houston One произошел пожар в связи с неполадками возникшими в оборудовании питания датацентра. На 1 этаже были серьёзно повреждены 3 стены с оборудованием, а также все цепи питания и подземные кабели тоже были испорчены в связи с взрывами электронных устройств. Пожар был локализован, но от подключения резервного питания сразу отказались в связи с тем что большая часть инфраструктуры была испорчена, а также отсутствовал исправный интернет канал. На протяжении всего вчерашнего дня начиная с 3-55 велись работы по устранению аварии, из Далласовского ДЦ прибыли дополнительные сотрудники для того чтобы быстрее восстановить нормальную работу датацентра. Также прибыли и поставщики оборудования которые доставили все необходимые устройства которые требуется восстановить. Работы велись и ночью (сейчас в Хьюстоне 6 утра) и как результат 6000 серверов на 2 этаже были подключены, в том числе и наш. С серверами на 1 этаже будет сложнее т.к. их системы питания были повреждены серьёзнее и для восстановления питания от генератора потребуется ещё несколько часов. Поэтому мы можем наблюдать сейчас что некоторые известные сайты не работают такие как например host-tracker.com. Вот собственно и вся информация которая поступила к нам на данный момент.
Инцидент безусловно серьёзный, надо отдать должное сотрудникам ДЦ которые смогли восстановить нормальную работу 6000 серверов в такие короткие сроки (учитывая масштабы аварии). На данный момент я не вижу причин для беспокойства потому что всё работает стабильно и быстро, надеюсь работа ещё 3000 серверов будет восстановлена в кратчайшие сроки.
Серверное оборудование не пострадало только потому что находилось в специальной зоне куда проникновение огня было затруднено, да и системы пожаротушения в самом ДЦ тоже предусмотрены.
Около 10 лет безупречной работы, не сложно догадаться как это событие отразиться на репутации и расходах компании. Я считаю что нет ничего вечного и идеального, и порой проверенное новое оборудование может дать сбой тем самым вызвав такие серьёзные последствия, главное это то что они прежде всего делали всё возможное для скорейшего восстановления, и запустили всё оборудование. Много времени ушло на тестирование всех устройств перед запуском, нужна уверенность что оно полностью исправно и готово к работе. Особенно это касается оборудования питания которое пострадало больше всего, да и времени на восстановление питания ушло больше чем на восстановление работы сети.
Источник:
http://antislaedcms.ru/index.php?showtopic=2464&pid=27341&st=0&#entry27341Вот хотел донести до Вас, что бы все знали