Iedereen heeft recht op mijn mening
Stressballetje
Vandaag was een stressdag. Vannacht kreeg ik een SMS met wat problemen op m’n serverpark. Een server was de verbinding naar de SAN (opslag) kwijtgeraakt. Hierdoor waren 3 virtuele servers niet bereikbaar, waaronder een shared webserver die door 100 verschillende mensen gebruikt wordt om honderden domeinnamen bereikbaar te maken. Onder deze sites ook mijn eigen website, administratie en e-mail. Paniek dus. Ik kreeg de data ‘s nachts niet hersteld en moest mijn leverancier inschakelen om te helpen. Een mail sturen en ik ‘s ochtends op weg naar een klant. Met weinig slaap was het een paar keer gapen, omdraaien en uiteindelijk rennen ‘s ochtends. En in die drukte ben ik mijn telefoon vergeten mee te nemen.
‘s Middags keek ik nog even en de websites werken. Mijn leverancier had alles dus goed opgelost dacht ik. Maar bij thuiskomst bleek anders toen ik mijn telefoon zag: 63 gemiste oproepen, 13 voicemails en 14 SMS-berichten. Snel even een kop koffie pakken en de status van het probleem nakijken. Omdat ik in een geclusterde omgeving zit – mocht een server uitvallen neemt de andere het automatisch over – hebben meerdere machines tegelijktijdig toegang tot dezelfde opslag. En hier is het om nog onverklaarbare wijze mis gegaan. Twee fysieke servers zaten gelijktijdig op dezelfde opslagdisk te werken, met als resultaat dat zowel de EqualLogic (SAN opslagserver) als de VMware nodes de data probeerden te herstellen.
Dit maakte de puinhoop behoorlijk groot. Het herstellen ervan duurde uren, waardoor er toch wat websites onbereikbaar waren. En dat aanzienlijk langer dan mijn escalatieplan toelaat. Die is namelijk zo gemaakt dat bij een calamiteit alle dienstverlening binnen 4 uur op een andere locatie weer opgepakt kan worden. De oorzaak van deze vertraging hangt met verschillende factoren samen: ik was zelf telefonisch niet bereikbaar en ‘s middags werkte alles weer even waardoor ik er vanuit ging dat het goed was. Dit bleek echter even voor een korte periode. Ook het inschakelen van externe hulp alsmede een verkeerd IP-adres doorgeven werkte behoorlijk vertragend.

Inmiddels is alles weer in orde. Een virtuele server, shared webserver03, zal opnieuw ingericht worden omdat ik twijfel aan de integriteit van de data. Dit zal een keer ‘s nachts moeten gebeuren in de loop van de week of anders op Koninginnedag overdag om zo de dienstverlening zo min mogelijk te onderbreken. Alle zakelijke klanten hebben vrij en veel particuliere mensen die de websites/webwinkels van hen bezoeken zullen op een vrijmarkt of terras vertoeven. Ik dus niet dit jaar.
Verder moet ik het escalatieplan nogmaals nakijken als precies bekend is geworden waar de fout nu zat. Richting klanten heb ik uitleg gegeven en veel pakten het goed op. Een enkeling maakte zich nogal zorgen omdat ik niet bereikbaar was. Iets dat velen niet gewend zijn van me omdat ik vrijwel altijd binnen 4 uur kan reageren. Ik kan hen gerust stellen: op veel stress na gaat alles weer goed. Voor nu een lekkere douche en het bed in. Alles draait gelukkig weer. Mede met dank aan Eef en Wilco die het een en ander goed op hebben gepakt. Dank.
| Print article | This entry was posted by Randy ten Have on 28/04/2009 at 23:26, and is filed under Weblog. Follow any responses to this post through RSS 2.0. You can leave a response or trackback from your own site. |
about 1 year ago
Wat als een “klein” probleem begint, eindigd dus aardig groter. Alleen wat minder als iets weer goed lijkt, maar ondertussen je cluster en SAN ruzie hebben m.b.t. data.
De bereikbaarheid is dan weer wat minder, maar kan gebeuren natuurlijk, iedereen kan eens zijn/haar telefoon vergeten.
In ieder geval succes met koninginnedag om server3 weer goed op de rails te krijgen. En hopen dat het niet weer gebeurd natuurlijk.