Iedereen heeft recht op mijn mening
Posts tagged storing
Heb je even tijd?
Jan 16th
Het is woensdagmiddag rond de klok van 3 uur als de telefoon gaat. Jorg belt en vraagt of ik even tijd heb. Zijn server in Amsterdam had er geen zin meer in. Ik probeer in te loggen maar dat lukte al niet meer. Dan van afstand maar een reboot geven en hopen dat alles weer terug komt. Toen dit tien minuten later nog niet het geval was, belde ik een engineer in het datacentrum. Die was zo vriendelijk om even een monitor aan de server te hangen een diagnose te stellen: kernelproblemen en een netwerkkaart die het niet deed. Dat werd dus een ritje naar Amsterdam.
Rustig pak ik nog een kop koffie en begin de tas in te pakken om vervolgens de bus in te stappen naar het station. Snel even een hapje bij mijn favoriete Burger King en de trein in naar Amersfoort en dan verder naar Amsterdam Sloterdijk, om het laatste stukje de metro te pakken naar de Isolatorweg. Jawel, dis is maar een halte maar het scheelt je toch een kwartier lopen, zo lui als ik ben ik deze kou. Aangekomen bij het DCG datacentrum zie ik allemaal errors van kernelmodules die niet geladen kunnen worden. Ik kijk nog eens een keer en zie echt 2.6.9.x modules. Een kernel die al zeker twee jaar niet meer in gebruik is.
Ik start de server op in single user mode en zie dat de netwerkdrivers niet werken. Ai, dat is lastig omdat je dan ook handmatig geen nieuwe kernel kunt downloaden. Een Ubuntu cd-rom erin en daarvan opstarten dan maar. Ik configureerde netwerkkaart en helaas, de eerste ethernetpoort is ook echt overleden, de tweede werkt wel. Dan de omgeving maar chrooten. Ubuntu mist LVM2-drivers dus die installeer ik handmatig even met apt-get. Maar he, de raidcontroller is ook krak. Wel zie ik de twee disken (/dev/sda en /dev/sdb) rechtstreeks door de raid-controller heen. Iets dat niet zou mogen gebeuren.
De disken rechtstreeks op het moederbord aansluiten was geen optie: Een Supermicro P4SCi bord met een Intel Pentium 4, 2400 Mhz processor is vrij oud, maar diende toch goed als back-ups server voor mij en als Gelre FM web- en streamserver. Deze server schreef de back-ups eens per week weg naar een offsite locatie. Gezien de leeftijd van de server en de problemen heb ik maar besloten om deze niet meer te herstellen, maar de back-ups te restoren op een andere server binnen mijn VMware cluster in Doetinchem. Maar nu komt het probleem: Circa 40 Gbyte aan back-ups uploaden vanaf een 1 Mbit SDSL lijn gaat niet snel. Ik begin maar met het kopieren van de twee belangrijkste websites, die van de Arctic Challenge tour die over enkele dagan van start gaat en die van Gelre FM.
Terwijl de back-ups – inmiddels een week oud van 5 januari – langzaam worden teruggeschreven duik ik thuis mijn bed in. De volgende dag begin ik met de oude server om deze data toegangkelijk te maken, om zo de data tussen 5 januari (de laatste back-up) en 13 januari (de crash) te herstellen. Het gaat hier om databases, een paar afbeeldingen en wat e-mailberichten. Inmiddels is de upload van de twee websites klaar en kan ik deze herstellen, al is het inmiddels 24 uur later. Deze twee zijn weer bereikbaar. De oude server komt ook weer tot leven en ik sync de databases. Op wat downtime na lijkt er voor de buitenwereld verder niets aan de hand.
Toch staat er nog ca. 30 Gbyte aan data klaar en om dat te uploaden op een 1 Mbit DSL lijn is geen succes. Ik besluit de back-up server maar op te halen in Lichtenvoorde en sluit deze thuis aan op mijn Glasnet-aansluiting. Dat gaat toch iets sneller. De data wordt gekopieerd en ik kan mijn bed weer induiken, om de volgende dag deze websites ook te herstellen. Zo gezegd, zo gedaan. Inmiddels zijn we wel twee nachten verder en schrijf ik dit bvericht op zaterdagmiddag. Nu leg ik de laatste hand aan enkele afbeeldingen die nog missen en om enkele e-mails te herstellen.
Ik denk nog even terug aan het belletje van Jorg, of ik ‘even’ tijd had. Even is ruim 24 uur geworden, voornamelijk in de nacht en onsite in Amsterdam en Lichtenvoorde, naast mijn gewone werkzaamheden door. Is het toeval, dat dit 24 uur duurde en dat er ook 24 flesjes bier in een krat Grolsch zitten? Want zo worden deze vriendendienstjes meestal afgerekend. Het leermoment: zet geen back-ups op een thuis of kantoorlokatie, wanneer deze te groot zijn. Herstellen duurt dan een eeuwigheid. Inmiddels heeft Stijn een server opgeleverd in het i3D datacentrum in Rotterdam. Hoewel deze dienst moet doen als fallback-mailserver blijft er meer dan voldoende ruimte over om de back-ups hierheen te schrijven. Stijn bedankt voor de snelle service. Jorg, die krat bier drinken we leeg als je terugkomt van de Noordpoolcirkel. Nu eerst heerlijk weekend houden!
Stressballetje
Apr 28th
Vandaag was een stressdag. Vannacht kreeg ik een SMS met wat problemen op m’n serverpark. Een server was de verbinding naar de SAN (opslag) kwijtgeraakt. Hierdoor waren 3 virtuele servers niet bereikbaar, waaronder een shared webserver die door 100 verschillende mensen gebruikt wordt om honderden domeinnamen bereikbaar te maken. Onder deze sites ook mijn eigen website, administratie en e-mail. Paniek dus. Ik kreeg de data ‘s nachts niet hersteld en moest mijn leverancier inschakelen om te helpen. Een mail sturen en ik ‘s ochtends op weg naar een klant. Met weinig slaap was het een paar keer gapen, omdraaien en uiteindelijk rennen ‘s ochtends. En in die drukte ben ik mijn telefoon vergeten mee te nemen.
‘s Middags keek ik nog even en de websites werken. Mijn leverancier had alles dus goed opgelost dacht ik. Maar bij thuiskomst bleek anders toen ik mijn telefoon zag: 63 gemiste oproepen, 13 voicemails en 14 SMS-berichten. Snel even een kop koffie pakken en de status van het probleem nakijken. Omdat ik in een geclusterde omgeving zit – mocht een server uitvallen neemt de andere het automatisch over – hebben meerdere machines tegelijktijdig toegang tot dezelfde opslag. En hier is het om nog onverklaarbare wijze mis gegaan. Twee fysieke servers zaten gelijktijdig op dezelfde opslagdisk te werken, met als resultaat dat zowel de EqualLogic (SAN opslagserver) als de VMware nodes de data probeerden te herstellen.
Dit maakte de puinhoop behoorlijk groot. Het herstellen ervan duurde uren, waardoor er toch wat websites onbereikbaar waren. En dat aanzienlijk langer dan mijn escalatieplan toelaat. Die is namelijk zo gemaakt dat bij een calamiteit alle dienstverlening binnen 4 uur op een andere locatie weer opgepakt kan worden. De oorzaak van deze vertraging hangt met verschillende factoren samen: ik was zelf telefonisch niet bereikbaar en ‘s middags werkte alles weer even waardoor ik er vanuit ging dat het goed was. Dit bleek echter even voor een korte periode. Ook het inschakelen van externe hulp alsmede een verkeerd IP-adres doorgeven werkte behoorlijk vertragend.

Inmiddels is alles weer in orde. Een virtuele server, shared webserver03, zal opnieuw ingericht worden omdat ik twijfel aan de integriteit van de data. Dit zal een keer ‘s nachts moeten gebeuren in de loop van de week of anders op Koninginnedag overdag om zo de dienstverlening zo min mogelijk te onderbreken. Alle zakelijke klanten hebben vrij en veel particuliere mensen die de websites/webwinkels van hen bezoeken zullen op een vrijmarkt of terras vertoeven. Ik dus niet dit jaar.
Verder moet ik het escalatieplan nogmaals nakijken als precies bekend is geworden waar de fout nu zat. Richting klanten heb ik uitleg gegeven en veel pakten het goed op. Een enkeling maakte zich nogal zorgen omdat ik niet bereikbaar was. Iets dat velen niet gewend zijn van me omdat ik vrijwel altijd binnen 4 uur kan reageren. Ik kan hen gerust stellen: op veel stress na gaat alles weer goed. Voor nu een lekkere douche en het bed in. Alles draait gelukkig weer. Mede met dank aan Eef en Wilco die het een en ander goed op hebben gepakt. Dank.