Většinou píšu o to co se děje ve světě hostingu jako jako jeden z prvních, ale tentokrát jsem měl i díky svému zainteresování(u Wedos mám na starosti posílání triček) celkem na pilno (dostal jsem další úkoly). Na rozdíl od většiny lidí, kteří zatím o tomto výpadku psalo tam mám 4 webhostingy, takže můžu psát i z pohledu zákazníka.
Co se stalo
V pátek jsem byl odvolit a zároveň jsem toho využil k nákupu. Domů jsem se tak dostal tuším před třetí hodinou. 404M mi nešel, tak jsem si myslel, že spadl internet. Zkusím tedy pingnout Seznam. V pohodě. Navíc se nemůžu připojit na interní síť wedosu. Tak pošlu hromadně SMSky klukům z podpory. Zavolal mi Dan (znáte jej z přednášky WP konference Hluboká), že je problém v serverovně a všichni tam jedou pomáhat. V podobném znění mi přišly i SMSky od ostatních kluků co měli zrovna volno (kdo neměl odpověděl až večer). Za pár minut mi zavolal i šéf Wedos Josef Grill (zrovna ve čtvrtek jel na dovolenou) jestli nemůžu do diskuzí a sociální sítě hodit nějaké info o výpadku, protože spadla administrace a nikdo nemůže psát ven. Navíc prioritou jsou služby zákazníků. Říkám ok není problém. Trochu jsem zaspamovoval a průběžně informoval, jak mi chodily další zprávy.
První ofic zpráva na Facebooku byla zavádějící. Kluci neměli přístup k datům venku ani administraci, takže to vypadalo, že vše postupně nabíhá. Někdo poslal jen zprávu na FB o výpadku serverů 10 + 2 minuty. Proč si to mysleli najdete níže přehledu výpadků.
Za pár hodin naskočily první weby a 404M samozřejmě jako naschvál poslední. Důležité weby kontroluju přes službu uptimerobot.com, takže o nedostupnosti z venčí mám přehled. Tabulku najdete v přehledu výpadků.
V sobotu se situace více méně opakovala. Nevím co se přesně stalo. Technicky zdatnější ať si přečtou oficiální vyjádření, které vedení ve spolupráci s techniky dávalo dohromady celý víkend. Tentokrát však došlo ke krizovému scénáři tak jak mělo a všechno naběhlo rychleji. Opět viz. Přehled výpadků níže.
Tím výpadky hostingů v podstatě končí. Co se týká ostatních služeb, tak jeden mail server bylo nutné dát do kupy, co se povedlo až ráno tuším v půl sedmé (anebo po sedmé). Všechny e-maily dorazily (či dorazí) se zpožděním anebo vrátí jako nedoručené (což by slušný mailserver udělat neměl a zkusit e-mail doručit opakovaně). Podpora dostala za úkol přes víkend pomáhat i se spuštěním zaseknutých VPS a obnova ze zálohy pokud došlo k problémům v důsledku výpadků je zdarma. Asi největší problém byly rozbité tabulky u několik zákazníků. Většinou postupně ve spolupráci s podporu je opravili anebo obnovili ze zálohy.
Přehled výpadků
Webhosting
Co se týká výpadků webhostinových služeb ty byly následující. Vše měřeno službou uptimerobot.com (měření probíhá každých 5 minut). Jedná se o součet.
Server | pátek | sobota |
46.28.105.71 | 01:58 | 00:44 |
46.28.105.83 | 00:40 | 00:34 + 00:10 (chyba 500) |
46.28.105.106 | 01:52 | 00:58 |
46.28.105.85 | 03:48 | 00:49 |
Výpadky jsem zažil u všech provozovatelů služeb ať už českých anebo zahraničních. Nejhorší trval několik dní, takže jednou za čas jsem ochotný pár hodinový výpadek akceptovat. I když ten na 404M už byl celkem dlouhý. Na druhou stranu tři a půl roku jede Wedos celkem v pohodě.
VPSka
VPSka se nastartovala okamžitě po naběhnutí virtualizace. Ptal jsem se více lidí, kteří zde přímo hostují, jak to viděli z venku. Ve většině případů to bylo 20 – 40 minut (pátek). Ovšem pár lidem se to zaseknulo z různých důvodů po startu. Uvítali by tak alespoň SMSku – “Proběhl nucený restart Vašeho VPS, prosím zkontrolujte si jej.”
Dedikované servery
Osobně nikoho kdo hostuje dedikovaný server u Wedos neznám, takže nemůžu posoudit výpadek z jejich pohledu. Podle toho co jsem se ptal techniků měly nastartovat okamžitě, jakmile byla obnovena dodávka elektřiny.
Fámy o několikadenním výpadku
Na internetu se objevilo několik fám o několikadenním výpadku. Často od lidí, kteří zde ani nemají své služby – například údajný dvoudenní výpadek na kecykveci.cz. Takže jsem si vypůjčil screenshot přenosu dat z článku na Lupě, na kterém je vidět, že opravdu nebyl Wedos odříznutý od světa.
Tak nějak to viděli zřejmě lidi z Wedos, kteří neměli přístup k systému a nástrojům, proto poslali zprávu o výpadku serverů 10 + 2 minuty. Když se podíváte na modrou čáru je vidět, jak vše nabíhá (vpravo je pak sobotní výpadek). Večer když vše nastartovalo, tak se zveřejnila nová zpráva. Stará se mohla smazat, ale v rámci politiky nezamlčování, tam visí doteď.
Závěr
Od doby co využívám hostingové služby (2001) jsem zažil ledacos. Prošel jsem desítkami různých služeb a stále i různé využívám (Savana, Ebola, Aerohosting, Subreg (jen domény), GoDaddy, Dynadot a pár dalších). Problémy se dějí všude. Nestřídám služby po prvních problémech (vydržel jsem i rok a půl u AH :)). Za tu dobu jsem pochopil, že je lepší být u firmy, která umí řešit technické průsery, když už se stanou. Ten u Wedos byl velký a zvládl se dobře.
Vezmeme si to dobré
U Wedos se poučili, že zákazníci druhé dekády 21. století chtějí být o všem informování ideálně online v přímém přenosu (proč ne že?). Což do příště není problém jistě zajistit. Udělá se záložní stránka někde jinde, která se zobrazí až se něco pokazí. Popřípadě se zařídí krizové přesměrování hovorů, kde ženský hlas odpoví, že se na všem pracuje. Víc lidí dostane přístupy k sociálním sítím a bude průběžně “děsit” zákazníky 🙂
Ohledně technických věcí, co se bude zlepšovat doporučuji oficiální zprávu. Vše zřejmě urychlí i stavbu nového Wedos datacentra 2.
Nejsem zákazník Wedos, ale pozorně jsem vše sledoval. Pokud celý incident pomůže vylepšit jak komunikaci, tak organizaci, tak těch pár hodin není takový problém.
Taky nevím proč všichni tak šílí. U ostatních dostanete mail o výpadku druhý den a na telefonu vám ještě budou tvrdit že to prověří jestli je to fakt u nich. Buďme za medosáky rádi.
V první řadě děkuji za zmínku na můj článek. Je hezké, že Wedos nebyl odříznut několik dní od světa, ovšem víc než dost webů u něj hostující byly. Grafy jsou sice hezké, ale připomíná mi to zprávu z FB Wedosu, kde byl výpadek 2 a 10 minutový (pro Wedos), pro okolí několikahodinový :-).
Aleši já mám 4 monitorované webhostigy (není problém dodat screenshoty), graf který jsem si vypůjčil z Lupa.cz (jako autoritativní zdroj, nepoužil jsem screenshot) a ty máš jen svědectví anonymních lidí, kteří často ani nechápali co se děje. Tvůj magazín kecykveci.cz je poměrně známý. Takže ti jako zkušenější bloger doporučuji v takto choulostivých věcech, kdy píšeš o jakémkoliv brandu se vždy opřít o důkazy. Koukni se po článcích na cn130. Je to tu vytapetované screenshoty anebo mám svolení od PR oddělení o těchto věcech psát a přeci mám jednou za čas se někdo naštve a pak si musím dopisovat s jeho “právníkem” a téměř vždy to skončí, že článek musím doplnit o vyjádření anebo dokonce smazat.
PS: O Wedos tu nejde, ale jsou tu “menší” kvůli kterým už jsem chtěl cn130 i zrušit jak mě vytočili.
PSS: za odkaz není zač, věřím že přinesl pár návštěvníků 😉
Ony ty výpadky byly dosti zvláštní. Wedos sice psal, že výpadky byly 2 a 10 minut, ale okolo sebe mám pár lidí, kterým maily a weby nejedou pořádně do dnes.
Nehledě na poničené FS u VPS. Nezvládli komunikaci, tohle by měla zvládnout i amatérská firma z garáže.
Wladass: komunikace už se rozebírala mnohokrát. Taky jsem jí zmínil v článku, včetně té mylné informace 10 + 2 minut. Od neděle by mělo fungovat všechno. Komu něco nejde ať kontaktuje zákaznickou podporu. Dostali za úkol pomáhat se vším.
Problém sa môže stať hocikedy a hocikomu. Podľa mňa to wedos zvládol najlepšie ako mohol a to iba konkurencia a ostatný, ktorí nemajú nič u wedosu si musia zdvihnuť ego hore že ako dobré že tam nič nemám.
Ve zprávě uváděli, že tento měsíc oznámí nějakou kompenzaci. Jak to dopadlo, bude něco nebo se na to zapomenulo?:)
Lukas: když jsem byl na poradě ohledně DoD 2014, tak jsem slyšel jak se o tom baví programátoři. Jakmile je něco u programátorů, tak to už bude fakt brzo 🙂