Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
post

Amikor a felhő elfelejti, hogyan működik a DNS

MEGOSZTÁS

Az internetes leállások túlnyomó része valamilyen DNS-problémára vezethető vissza. Szakértői vélemények szerint az AWS hétfői incidense ráirányítja a figyelmet a rutinos, veterán mérnökök hiányára.

Az internetes leállások túlnyomó része valamilyen DNS-problémára vezethető vissza. Ugyanez volt a helyzet az AWS felhőszolgáltatásának összeomlása során is. 

Mindig a DNS a hibás

A “felelős” ugyanis nem más volt, mint a DNS. Mint a The Register szakértője a hétfői incidens margójára írt jegyzetében rámutat: ezt az AWS is tudja.

Éppen ezért adódik a kérdés: hová tűntek azok a veterán mérnökök a cégtől, akik már számtalanszor megéltek hasonló kríziseket? 

A válasz az, hogy elvándoroltak. Elmentek és magukkal vitték azt a több évtizedes tapasztalatot és intézményi tudást, amely arról szólt, hogyan működik az AWS infrastruktúrája – igazán nagy léptékben.

Mi történt most hétfőn?

Az AWS közleménye szerint október 20-án hajnalban kezdtek el vizsgálni “megnövekedett hibaarányokat és késéseket több AWS-szolgáltatásnál”. Ezek a hibák az US-EAST-1 régióban jelentkeztek.

Nagyjából egy órán belül “jelentős hibaarányokat” tapasztaltak a DynamoDB végpontjához érkező kéréseknél. Fél óra múlva sikerült azonosítani a problémát: a DynamoDB API végpont DNS-feloldása hibásodott meg.

Ez láncreakciót indított el a régió többi szolgáltatásánál.

A DynamoDB ugyanis alapszolgáltatás – rengeteg más AWS-megoldás épül rá. 

Így ha ez bedől, az egész internet megremeg: bankok, játékplatformok, közösségi oldalak, állami szolgáltatások, sőt maga az Amazon.com is megsínylette az incidenst.

Bajnokok reggelire

Az AWS a szokásoknak megfelelően ilyen esetekben fokozatosan osztja meg az információkat, ahogy új részletek derülnek ki. 

A beszámolók alapján azonban 75 percbe telt, mire a csapat eljutott odáig, hogy “valami baj van”, majd megtalálták a gyanús szolgáltatási végpontot, amit akkor még mindig vizsgáltak.

A The Register publicistája szerint ez igencsak “keserű pirula” egy olyan cégtől, amely az infrastruktúra bajnoka.

Pláne úgy, hogy ebben a 75 percben az AWS státuszoldalát felkereső ügyfeleket – akik próbálták kideríteni, miért omlott össze az egész online életük – egy “Minden rendben!” üzenet fogadta. 

Egy bizonyos szint felett

Az AWS kétségtelenül kiváló az infrastruktúrában. Ezt jól mutatja az is, hogy ha a 38 régió közül csak egy – még, ha a legfontosabb is – leáll, az már globális hír. 

Míg a cégek többségének ez csak egy “hétfői üzemzavar” lenne, egy bizonyos méret felett nincsenek egyszerű problémák. 

Az igazán aggasztó az, hogy az AWS ezúttal egész nap küzdött a hiba feltárásával. Ez a felhőtechnológiai elemző szerint pedig azt jelzi, hogy a korábbi a rutinból elveszett valami.

Jóslatnak beillő kritika

Justin Garrison, az AWS egyik tapasztalt mérnöke 2023 végi távozásakor kemény kritikával illette a céget. Kijelentette: az AWS-nél megszaporodtak a „Large Scale Eventek” és már 2024-re komoly leállásokat jósolt. 

A probléma nem csupán az, hogy nincsenek új mérnökök. Hanem az, hogy a régiek elmentek. Mégpedig azok a “rutinos vén rókák”, akik emlékeztek arra, hogy ha a DNS furcsán viselkedik, akkor ellenőrizni kell azt a látszólag semmihez sem kapcsolódó egységet a sarokban, mert tíz éve már okozott gondot egy hasonló.

Arra az elemző is rámutatott, hogy ez a fajta „törzsi tudás” nem szerezhető meg tankönyvekből. Ezen tudás hiánya pedig nem bukik felszínre azonnal, mikor a cég leépítésekkel, “return to office”-szabályokkal és költségcsökkentéssel “üldözi el” ezeket az embereket.

Aztán hétfő reggel leáll az egész internet…

(Kép: Unsplash/Sparsh Paliwal)

IT EXPERTS-TECH LEADERS 2024 FELHŐ A JAVÁBÓL KONFERENCIA

ICT Global News

VIDEOGALÉRIA
FOTÓGALÉRIA

Legnépszerűbb cikkek

ICT Global News

Iratkozz fel a hírlevelünkre, hogy ne maradj le az IT legfontosabb híreiről!