Hlavní navigace

Milan Švácha (Casablanca INT): Nenapadlo nás, že někdo uřízne vodovodní trubky

30. 1. 2014
Doba čtení: 8 minut

Sdílet

Obnova provozu datacentra Casablanca trvala po zaplavení jeho části několik dní a řada zákazníků si stěžovala na postup a nepřipravenost firmy. Co k tomu s odstupem říká její vedení?

Ptát se, jak se vám daří, není asi vzhledem k tomu, co se minulý týden stalo a čím jste si museli projít, příliš vhodné?

Daří se nám dobře. Některé informace, které se objevily v médiích a internetových diskusích, totiž nebyly úplně pravdivé a komentáře se tak dost vzdalovaly nejen od aktuálního stavu, ale i od reality řešení podobných událostí. Výpadek se dotkl pouze deseti procent našich služeb. Postihl sál, který má rozlohu zhruba 200 m2, přičemž celková plocha našich sálů je 1600 m2.

K čemu tedy ve skutečnosti došlo?

Nad zmiňovaným sálem se nacházejí nepronajaté prostory, které jsou přístupné pouze majiteli budovy a firmě, která ji pro něj spravuje. Minulý týden v úterý do nich přišel zaměstnanec správcovské firmy a zatočil kohoutem, protože chtěl pustit vodu v jiné části budovy. Nezkontroloval ale vodovodní potrubí, které bylo v patře nad sálem uříznuto a nezaslepeno. Správce budovy v této souvislosti už podal trestní oznámení.

Otevřeným potrubím pochopitelně začala proudit voda a záhy vytvořila na podlaze louži o velikosti zhruba 6×6 metrů. Vzhledem k tomu, že se jednalo o velké množství vody, našla si cestu po nosné konstrukci a dostala se až do DataCentra. Bohužel natekla na primární část našeho cloudového řešení Big Blue One. Současně natekla na zhruba deset zákaznických racků.

Výpadek tedy postihl všechny zákazníky našeho cloudového řešení a pět zákazníků, kteří měli v tomto sále vlastní racky. Těmto jsme okamžitě poskytli náhradní racky v jiném sále. Co se týče cloudového řešení, to jsme byli nuceni vypnout a obnovit data ze zálohy. Data začala nabíhat postupně od čtvrtka. Od soboty pak běží soudobé řešení již naplno. Nedošlo ke ztrátě žádných zákaznických dat.

Souvislosti: Fotogalerie, která dokumentuje vytopení serverovny.

Kolika lidí se týkal výpadek cloudového řešení?

Nerad bych uváděl konkrétní číslo, protože bych tak konkurenci sdělil počet zákazníků, kteří tuto naši službu využívají. Z mého pohledu je daleko důležitějším ukazatelem objem dat, která bylo nutno obnovit. Jednalo se přibližně o 100 TB dat. Samozřejmě je velice nepříjemné, že naše cloudové řešení několik dní neběželo, na druhou stranu je pozitivní, že se nám díky replikaci ze sekundární části, umístěné v datacentru našeho partnera, podařilo zachránit veškerá zákaznická data.

Někteří zákazníci ale tvrdili, že jim například naběhly aplikace bez kompletní databáze.

Žádný zákaznický stroj nebyl zapnut bez předchozího souhlasu, tedy dokud se se zákazníkem nespojilo obchodní oddělení a neověřilo aktuální stav. Řada zákazníků si totiž spustila své systémy někde bokem. Anebo chtěli obnovovat ze zálohy k určitému datu. Sekundární strana sloužila čistě jako kopie té primární. To znamená, že tam byla vždy jen poslední záloha. Mnoho zákazníků ale mělo doplňkové služby zálohování, které umožňují vrátit se v čase do nějaké doby.

Nemáme informace o tom, že by po obnovení zákazníkům něco nefungovalo tak, jak má. Stroje, které máme ve správě, naši technici zkontrolovali. Do těch ostatních ovšem samozřejmě nemáme administrátorský přístup.

Milan Švácha, zakladatel a výkonný ředitel společnosti Casablanca INT.

Milan Švácha, zakladatel a výkonný ředitel společnosti Casablanca INT.

Zákazníci si od samého začátku stěžovali na nedostatečnou komunikaci z vaší strany.

Nedělali jsme od samého začátku nic jiného, než že jsme s nimi komunikovali. Každý zákazník má totiž u nás svého obchodníka, který s ním komunikoval.

Lidem spíše vadilo, že jim zpočátku nebyly poskytnuty relevantní informace. Na zákaznické podpoře byli zpočátku ubezpečováni, že se jedná jen o drobný problém na síťové infrastruktuře.

Ze začátku tam byl opravdu trochu nesoulad v informovanosti, protože se vůbec nevědělo, co všechno a jak je zasaženo. Avšak v okamžiku, kdy jsme věděli, jaká část pole je poškozena, tak informace směrem k zákazníkům, byť pro ně nebyly příjemné, začaly proudit. Dělali jsme mnoho různých kroků, abychom problém odstranili a na základě toho se následně upřesňovaly prognózy, kdy dojde k obnovení provozu služby a stejně tak informace zákazníkům.

Jakým způsobem jste se zákazníky komunikovali?

Obchodníci měli na stole priority obnovování strojů. Měli obvolat nebo se jiným způsobem spojit s každým zákazníkem, kterého se výpadek dotkl. Řešili jsme to úplně všichni. Nejen obchodníci, technici, ale celé vedení firmy.

Když se na to podíváte zpětně, myslíte, že komunikace směrem ke klientům byla dostatečná? Proč jste jim například neposlali informační mail?

Maily jsme poslat nemohli, protože byl zasažen náš mail server. Navíc spousta zákazníků měla na našem řešení i své vlastní mail servery. Ti by maily pochopitelně nedostali. Nejsem si jistý, zdali šlo v otázce komunikace v danou dobu a případě udělat něco jinak a lépe.

V médiích se objevily informace, že jste neměli připravené žádné krizové plány a scénáře, jak v podobných případech postupovat.

Vzhledem k tomu, že máme od počátku provozu cloudu externí data recovery umístěné v jiném datacentru, tak jsme na to připraveni byli.

Já mám spíš na mysli, že někdo měl mít na starosti komunikaci směrem ven z firmy, někdo měl řešit odstraňování výpadku atd.

Tak to ale samozřejmě fungovalo. Tato událost bohužel opět ukázala, že v Čechách se úspěch neodpouští a neúspěch se naopak přeje. Na druhou stranu jsem však dostal spoustu telefonátů, e-mailů a esemesek od největších konkurentů, což jsou většinou mezinárodní firmy, jejichž zástupci nám nabízeli pomoc, například infrastrukturu zdarma. Shodli jsme se na tom, že taková událost je největší noční můrou všech, kteří v tomto byznysu působí.

Každopádně si myslím, že jsme na případný výpadek připraveni byli. V okamžiku, kdy čidla na vodu a na vlhkost začala hlásit problém, šli zaměstnanci ihned zjistit, co se děje. Když zjistili, že se do sálu valí voda, vypnuli stroje a započali se sanací. Ta byla hotová již druhý den. Mezitím jsme intenzivně pracovali na obnově hardwaru.

Z fotografií je ale patrné, že zaměstnanci se v sále pohybovali v okamžiku, kdy některé stroje byly pod proudem.

Vy poznáte z fotografií, že něco bylo pod proudem?

I laik by si všimnul svítících diod.

Všechno probíhalo naprosto v souladu s pravidly bezpečnosti práce.

Nenechali jste stroje zapnuté z toho důvodu, že tak výpadek zasáhl méně zákazníků, než kdybyste vypnuli celý sál?

Napájení je v našem DataCentru možné vypínat po sekcích, není nutné vypnout celý sál. Vypnuli jsme sekce, do kterých natekla voda.

Nicméně na zemi byla voda, pohybovali se tam zaměstnanci a některé sekce byly pod proudem. Není to problém z hlediska bezpečnosti práce?

Nedošlo tam k žádnému porušení bezpečnosti práce.

Nebyl to ale první případ, kdy jste měli v serverovnách problém s vodou. 

Ano, ale týkalo se to jiných sálů. V tehdejších případech byla příčina ve starých stoupačkách, kdy došlo k úniku vody únavou materiálu. Starší serverovny jsou nicméně postavené tak, že nad nimi naštěstí nic není a voda tedy do sálu zatekla jen v rohu po stěně.

Kudy voda tentokrát natekla přímo do strojů? Z fotografií jsou patrné louže na plexisklu.

Voda tekla kolem nosníků stavby na plexisklo a zatekla za něj. Plexisklo, o kterém hovoříme, není ochranou proti vodě, ale je součástí systému chlazení pomocí teplých a studených uliček.

Plánujete v tomto sále nyní vybudovat i ochranu proti vodě?

Už jsme začali s projektem na zapouzdření celé serverovny. Plánujeme střechu s odtoky.

Proč tam takový systém nebyl instalován už dříve?

Rozvody pro naše technologie jsme dělali sami a jejich zabezpečení je na dobré úrovni. Skutečně nás nenapadlo, že nějaká třetí osoba v prostorách nad sálem uřízne vodovodní trubky a někdo jiný pak, aniž by zkontroloval potrubí, pustí vodu.

Takové riziko ale v okamžiku, kdy máte serverovnu v místě, nad kterým jsou ještě další patra s rozvody vody, existuje.

Samozřejmě, že běžné provozní riziko existuje vždy a všude.

Nabízí se tedy otázka, zdali je rozumné mít serverovnu umístěnou právě na takovém místě?

Prostory v této lokalitě máme umístěny historicky. Vždy jsme se naše DataCentra snažili zabezpečit podle našeho nejlepšího vědomí a svědomí. Tato lokalita v době, kdy jsme začali DataCentrum budovat, byla z hlediska kumulace infrastruktury nejzajímavější lokalitou v Praze. Nedaleko je Telefónica, TTC a Nagano, ale také například Sitel.

Mimochodem v té době byl Sitel jediným datacentrem, které bylo postavené na zelené louce. Kromě Sitelu všechna tuzemská datacentra sídlí v objektech, které nebyly původně určeny pro tento účel. Víte proč?  Je to požadavek trhu. Na trhu zatím ještě bohužel není taková poptávka, aby si tradiční poskytovatel těchto služeb mohl dovolit postavit úplně nové datacentrum. Při současných cenách na trhu se vám investice do vybudování datacentra na zelené louce nevyplatí.

Máte už vyčíslené škody?

Budou se pohybovat v desítkách milionů korun.

Máte na mysli škody na vašem zařízení?

Bavíme se o souhrnné částce, tedy včetně případného odškodnění zákazníků. Neříkám záměrně konkrétní částku, protože čísla pro pojišťovnu v tuto chvíli teprve dáváme dohromady.

Škoda bude vyplácena z vaší pojistky nebo z pojistky majitele objektu?

Je v tom zainteresováno celkem pět pojišťoven. Správní firma má smlouvu s majitelem budovy, ten má smlouvu s námi a my zase máme smlouvu s našimi zákazníky nebo s leasingovou společností, od které máme zařízení. Škodu vyplatí jedna z pojišťoven a potom principem regrese uplatní své nároky až u pojišťovny, u které má pojistku viník.

Obracejí se už na vás zákazníci s žádostí o odškodnění?

Máme na to tzv. „kuchařku“. Obchodníci vědí přesně, jak mají postupovat a jaké informace a materiály si od zákazníků vyžádat. Zaznamenali jsme již ohledně odškodnění telefonické dotazy a někteří zákazníci se na náš obrátili i písemně. Zatím se o náhradu škody ozvalo několik zákazníků.

Kolik jich může být celkově?

Odhaduji, že by jich mohlo být několik desítek.

Zaznamenali jste případy, kdy zákazník kvůli výpadku vypověděl smlouvu?

Ano, ale jedná se o jednotky případů.

Uplatňovali jste standardní tříměsíční výpovědní lhůtu?

Ne. Pokud někdo bude chtít smlouvu ukončit, může tak po vzájemné dohodě učinit ihned.

Někteří zákazníci podle všeho ztratili trpělivost a přesunuli se ke konkurenci.

V těchto případech jsme jim poskytli součinnost a dodávali jsme jim data, aby byli schopni své systémy obnovit jinde.

Tipy C

V diskusích na Internetu se hodně debatovalo okolo 100% garantované smluvní dostupnosti. Někteří zákazníci to vnímali tak, že v geograficky oddělené lokalitě existuje replika primáru, na kterou se dá v případě podobného výpadku přepnout.

To je bohužel otázka nepřesného vnímání. Ve skutečnosti to byl a je sekundár. Rozhodli jsme se nicméně, že nově uděláme i repliku primáru, která se bude nacházet ve třetím geograficky odděleném datacentru. Budeme mít tedy dva primáry a jeden sekundár. Je však třeba říci, že replika primáru bude za jinou cenu. Zákazníci si budou moci vybrat, zdali si připlatí za to, aby měli k dispozici repliku primáru.

Byl pro vás článek přínosný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).