Молния отрубила «Скопления»

пасмурный сервис Одного потрясения молнии достало, чтобы существенная часть пасмурных сервисов Amazon и услуг Майкрософт были на время недосягаемы.

От совпадений не застрахован никто, даже дата-центры самых крупных всемирных организаций, доказывает история с ЦОДом Amazon в Дублине.

Утром в понедельник, 7 сентября, молния приложившая в трансформатор, подняла пожар и перебои в системах подачи электропитания в дублинских дата-центрах Amazon и Майкрософт. В итоге пасмурный сервис Amazon Elastic Computer Cloud (Amazon EC2) и часть услуг Майкрософт в туче были недосягаемы достаточно продолжительное время.

Количество потерпевших от простоев в работе организаций может измеряться десятками: на серверах Amazon лежат данные популярных ресурсов и больших онлайн-магазинов.

Существенная часть сервисов была восстановлена на протяжении четырех-шести часов. Но целиком конфликт не исчерпан до сегодняшнего дня, а со времени трагедии прошло 2 дня. Перебои в работе компьютеров Amazon до сегодняшнего дня продолжаются: вчера в движение 40 секунд не работали такие распространенные сервисы, как Netflix, Foursquare, Reddit, Heroku, Instagram, Fab, Turntable.fm и другие. Оказалось, отключение случилось в центре East-1.

По эталонам Uptime Institute Professional Services для дата-центров класса TIER III (3-й уровень долговечности), дозволенное время простоя примерно не должно превосходить 1 дня 35 секунд. Но это требование работает в случае отдельного перебоя, разъяснили BFM.ru в организации «Набросок», которая в начале мая состоялась сертификацию Uptime Institute на соответствие проекта собственного нового аутсорсингового дата-центра классу TIER III.

По известию Amazon, поражения в дублинском дата-центре были настолько солидными, что организации понадобилось делать особые копии всех данных. Это, к тому же, попросило использовать большие запасные производительности, что замедлило процесс восстановления. При этом определенные компьютеры были испорчены так значительно, что понадобились «ручные процедуры».

К тому же представители Майкрософт рассказали в Twittere организации, что удар по их части дата-центра лишил клиентов доступа к сервису Business Productivity On-line Suite. Работа этого обслуживания была восстановлена к дню вторника, докладывается в том же Твиттер.

«Принимая во внимание размер поражений, восстановить 60% мощностей за 12 часов, вероятнее всего, было вероятно лишь с условием миграции на иные источники провайдера. Однако необходимо отметить, что это отличный уровень восстановления», — полагает начальник назначения центров обработки данных организации «Набросок» Р. Заединов.

По версии специалиста, непросто установить четкое количество организаций, которые пострадали в итоге трагедии. «Принимая во внимание то, что это самый крупный азиатский дата-центр Amazon, речь может идти о на самом деле существенном количестве», — полагает Заединов.

Перечисленные выше хорошие атмосферные критерии Дублина, которые позволяют обладателям ЦОДов снижать затраты на дорогие системы замораживания, применяя прохладный воздух «с улицы», сейчас сыграли с Amazon злобную шуточку. В случае если удар молнии может так просто вывести из строя большой дата-центр, от которого находится в зависимости жизнедеятельность большого количества интернет-ресурсов, то что произойдет в случае крупного естественного бедствия?

Многое «находится в зависимости от компетентного системного конструктора либо администратора проекта»

«Случившаяся катастрофа выходит за границы эталонов в сфере долговечности ЦОД. Ни один из них не учитывает варианта попадания молнии в компанию дизель-генераторных агрегатов. Эталоны рассматривают или отдельные неисправности (и, как следствие, стойкость ЦОД к ним), или большие, но также и в таких ситуациях речь не проходит о выходе из строя какой-нибудь из подсистем целиком. А в этом случае случилось наружное мероприятие, которое привело к абсолютному выводу из строя ЦОД. При этом необходимо обозначить, что катастрофа имела крайне сложный характер: не только одна из дизель-генераторных агрегатов была выведена из строя, а пострадала технология синхронизации работы этих дизельных агрегатов, которая не сумела поддерживать деятельность ЦОД, когда он был целиком обесточен из-за потрясения молнии. В итоге, дата-центр сломался полностью», — разъяснил Р. Заединов.

При этом эксперт не пренебрег обозначить, что определенные дата-центры обеспечены технологией обороны от молний. Была ли такая технология у Amazon и в случае если была, то отчего не повлияла — неясно.

От стихии не застрахован никто, однако все-таки есть ряд факторов, которые можно учесть и учесть. Даже в «пасмурную» эру никто не аннулировал закоренелые и опробованные на деле способы снабжения непрерывности работы бизнеса, рассказывают специалисты.

«»Скопления» — это лишь технологии. И в случае, в случае если бизнес-процессы организации завязаны на данной технологии и есть цель сохранять их беспрерывность, необходимо иметь запасные системы, план прохода на них и штат, который вполне может осуществить высококачественный переход. Так что, переход в «скопление» не избавляет организацию от потребности гарантировать комплекс граней, нацеленных на обеспечение непрерывности IT-сервисов», — предостерегает специалист «Крока».

Сами «скопления» не считаются панацеей от всех неприятностей, которые способны появиться с хостингом, согласен начальник назначения арендных решений «1С-Битрикс» Александр Демидов. «Всегда принципиально правильно создавать всю инфраструктуру для собственных программ, гарантировать сохранение данных, иметь полновесную технологию прогноза.
«Скопления» же дают возможность быстро возрождать нужные производительности. Совместно с резервированием текста в различных точках — дата-центрах — это дает возможность уменьшать время простоя и вероятные издержки. «Скопление» — только комфортный аппарат. Как его применять, находится в зависимости от компетентного системного конструктора либо администратора проекта», — сообщил он BFM.ru.

Кто заплатит за простои

Пасмурные провайдеры должны обеспечить заказчикам сохранность данных — такая обязанность поставщика услуг должна быть написана в SLA (соглашение об уровне сервиса, Service Level Agreement)

Но провайдер не должен защищать заказчика от его же своих погрешностей, объясняет представитель «1С-Битрикс». «В случае если заказчик вышлет в техподдержку провайдера запрос вида «Мой контент-менеджер невольно удалил все иллюстрации с нашего веб-сайта на прошлой неделе», вероятнее всего, провайдер ему не в состоянии помочь, — привел образец Александр Демидов. — Принципиально иметь свои запасные копии данных».

Согласно его заявлению, потери от простоя большого онлайн-магазина в этом случае едва ли кто-то компенсирует. «У SLA провайдеров в первую очередь бытуют числа, сравнимые с ценой предлагаемых интернет – провайдером услуг. Потому главнее эти потери не разрешить, минимизировав время простоя», — разъяснил специалист.

Важнейший урок, который покупатели пасмурных услуг могут перенести из этой обстановки, по словам Демидова, — «оставить данные в свободных друг от дружки точках, в различных дата-центрах, иметь свою стратегию на пример конфликтов, заблаговременно спроектировать и проверить вероятные модели восстановления».

Что же касается провайдеров пасмурных услуг, то их цель в случае трагедии — предельно оперативное обновление работы, говорит официальный дилер «Набросок».

» после трагедии штат должен расценить ситуацию и систематизировать катастрофу. Одновременно должны производиться действия, которые нацелены на обеспечение безопасности людей. После этого приступить к операциям восстановления. Как правило они подразумевают диагностику тех элементов, которые пострадали; попытку восстановления их трудоспособности, в случае если можно это восстановить собственными силами. Если же это нельзя, должны включаться сервисные организации, которые должны гарантировать гарантированное обновление трудоспособности тех либо других элементов ЦОД за некоторое время (пару часов) по SLA. Когда это выполнено, можно подключать IT-системы и заниматься возобновлениями IT-сервисов», — обрисовал модель действий Р. Заединов.

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *