Az internetes leállások túlnyomó része valamilyen DNS-problémára vezethető vissza. Ugyanez volt a helyzet az AWS felhőszolgáltatásának összeomlása során is.
Mindig a DNS a hibás
A “felelős” ugyanis nem más volt, mint a DNS. Mint a The Register szakértője a hétfői incidens margójára írt jegyzetében rámutat: ezt az AWS is tudja.
Éppen ezért adódik a kérdés: hová tűntek azok a veterán mérnökök a cégtől, akik már számtalanszor megéltek hasonló kríziseket?
A válasz az, hogy elvándoroltak. Elmentek és magukkal vitték azt a több évtizedes tapasztalatot és intézményi tudást, amely arról szólt, hogyan működik az AWS infrastruktúrája – igazán nagy léptékben.
Mi történt most hétfőn?
Az AWS közleménye szerint október 20-án hajnalban kezdtek el vizsgálni “megnövekedett hibaarányokat és késéseket több AWS-szolgáltatásnál”. Ezek a hibák az US-EAST-1 régióban jelentkeztek.
Nagyjából egy órán belül “jelentős hibaarányokat” tapasztaltak a DynamoDB végpontjához érkező kéréseknél. Fél óra múlva sikerült azonosítani a problémát: a DynamoDB API végpont DNS-feloldása hibásodott meg.
Ez láncreakciót indított el a régió többi szolgáltatásánál.
A DynamoDB ugyanis alapszolgáltatás – rengeteg más AWS-megoldás épül rá.
Így ha ez bedől, az egész internet megremeg: bankok, játékplatformok, közösségi oldalak, állami szolgáltatások, sőt maga az Amazon.com is megsínylette az incidenst.
Bajnokok reggelire
Az AWS a szokásoknak megfelelően ilyen esetekben fokozatosan osztja meg az információkat, ahogy új részletek derülnek ki.
A beszámolók alapján azonban 75 percbe telt, mire a csapat eljutott odáig, hogy “valami baj van”, majd megtalálták a gyanús szolgáltatási végpontot, amit akkor még mindig vizsgáltak.
A The Register publicistája szerint ez igencsak “keserű pirula” egy olyan cégtől, amely az infrastruktúra bajnoka.
Pláne úgy, hogy ebben a 75 percben az AWS státuszoldalát felkereső ügyfeleket – akik próbálták kideríteni, miért omlott össze az egész online életük – egy “Minden rendben!” üzenet fogadta.
Egy bizonyos szint felett
Az AWS kétségtelenül kiváló az infrastruktúrában. Ezt jól mutatja az is, hogy ha a 38 régió közül csak egy – még, ha a legfontosabb is – leáll, az már globális hír.
Míg a cégek többségének ez csak egy “hétfői üzemzavar” lenne, egy bizonyos méret felett nincsenek egyszerű problémák.
Az igazán aggasztó az, hogy az AWS ezúttal egész nap küzdött a hiba feltárásával. Ez a felhőtechnológiai elemző szerint pedig azt jelzi, hogy a korábbi a rutinból elveszett valami.
Jóslatnak beillő kritika
Justin Garrison, az AWS egyik tapasztalt mérnöke 2023 végi távozásakor kemény kritikával illette a céget. Kijelentette: az AWS-nél megszaporodtak a „Large Scale Eventek” és már 2024-re komoly leállásokat jósolt.
A probléma nem csupán az, hogy nincsenek új mérnökök. Hanem az, hogy a régiek elmentek. Mégpedig azok a “rutinos vén rókák”, akik emlékeztek arra, hogy ha a DNS furcsán viselkedik, akkor ellenőrizni kell azt a látszólag semmihez sem kapcsolódó egységet a sarokban, mert tíz éve már okozott gondot egy hasonló.
Arra az elemző is rámutatott, hogy ez a fajta „törzsi tudás” nem szerezhető meg tankönyvekből. Ezen tudás hiánya pedig nem bukik felszínre azonnal, mikor a cég leépítésekkel, “return to office”-szabályokkal és költségcsökkentéssel “üldözi el” ezeket az embereket.
Aztán hétfő reggel leáll az egész internet…
(Kép: Unsplash/Sparsh Paliwal)