Toelichting op storing

NB: deze blog post is redelijk oud

We hebben sinds dit artikel een nieuwe website gekregen. Wellicht ziet dit artikel er daarom niet zo uit zoals je zou verwachten.

Als je denkt dat deze pagina erg nuttig is, en hij er niet mooi uit ziet of niet goed functioneert, neem dan contact met ons op.

ladybug

Afgelopen donderdag 9 augustus is er een storing opgetreden in een van de primaire opslagsystemen van Greenhost, hierdoor zijn een aantal diensten voor kortere of lange tijd niet beschikbaar geweest. Als hostingprovider zijn wij ons ervan bewust dat internet en e-mail een steeds belangrijkere rol innemen en storingen daarom erg vervelend zijn en tot problemen kunnen leiden. Wij vinden het belangrijk om eerlijk en open met onze klanten te communiceren en willen u daarom nader informeren over deze storing, en de acties die wij nemen om herhaling te voorkomen.

Om 5:05 viel de storage server 'storage3' uit, deze server heeft normaal gesproken de data voor een deel (30%) van ons mailplatform, een deel van het hostingplatform en een deel van de VPS systemen, zodat die delen offline waren. Wij hebben geprobeerd deze server te herstarten en toegang tot de data te krijgen, dit bleek helaas niet mogelijk, zodat wij terug moesten vallen op de backups. Gedurende de hele dag zijn wij vervolgens bezig geweest met het herstellen van data uit backups zodat wij de systemen online konden brengen. Dit proces werd ernstig bemoeilijkt door grote performance problemen met de backup server, (die pas nu aan het licht kwam), in combinatie met het feit dat een ander primair opslagsysteem in onderhoud was. In de loop van donderdag zijn wel steeds meer systemen weer beschikbaar gekomen, maar pas aan het einde van de middag waren echt alle hostingklanten weer online, voornamelijk omdat

het herstellen van de database servers zeer veel tijd kostte.

Omdat het herstellen van de maildata zo lang duurde hebben wij besloten de getroffen klanten donderdagavond online te brengen op een leeg systeem, zodat deze bij hun nieuwe mails van de afgelopen dag konden. Deze klanten kregen een mail in hun mailbox dat de rest van de berichten later beschikbaar zouden komen. Uiteindelijk heeft het helaas tot zaterdagnacht geduurd tot alle mailboxen hersteld zijn met de historische berichten.

Techniek is faalbaar, en daar richten wij in principe onze systemen ook op in. Wat er in die zin goed is gegaan is dat er geen data verloren is gegaan in het proces. Waar wij minder blij mee zijn is de zeer lange hersteltijd na deze storing, en de grote impact voor klanten die de storing daarmee had.

De problemen die leidden tot de lange hersteltijd:

  • Het primaire incident, de crash van storage3;
  • Het in onderhoud zijn van storage1;
  • Zeer trage performance van de backup server (niet aan het licht gekomen bij  routine tests);

De verbeteringen die wij hebben aangebracht of op korte termijn gaan aanbrengen om herhaling te voorkomen en hersteltijd te beperken:

  • Wij hebben vrijdag een nieuw storage systeem live gebracht op onze backup- locatie, deze zal backups gaan doen maar is ook in staat om zelf live systemen te draaien in het geval van een storing. Daarnaast zullen restores van dit systeem sneller gaan. De impact van het in onderhoud zijn van een storage server wordt daarmee ook kleiner. De impact van onderhoud aan storageservers ook.;
  • Wij zullen betere tests opzetten om de performance voor het terugzetten van backups te testen, zodat problemen hiermee eerder aan het licht komen;
  • Er bleken nog een aantal afhankelijkheden te zijn in ons hostingcluster die we door verdere sharding (het opsplitsen in kleinere onafhankelijke clusters) verder kunnen verbeteren, dit gaan we implementeren zodat de impact van een storing beperkt wordt;
  • Het SQL platform wordt herzien om sneller te kunnen herstellen;
  • Met onze leverancier wordt geanalyseerd wat de exacte oorzaak van de storing van de storageserver was en of dit probleem eventueel ook andere systemen zou kunnen treffen;

Met het nemen van deze maatregelen denken wij de impact voor een soortgelijk incident (uitval storageserver) te kunnen beperken zowel in de reikwijdte van de uitval als in de tijd die het kost voordat gegevens weer online zijn. In principe is de maximale tijd voor dit scenario 4 uur (dat overigens zeer zeldzaam is, deze servers zijn zo uitgevoerd dat een crash als deze niet hoort te gebeuren, een crash van deze omvang is de 12 jaar dat wij hosten nog niet eerder voorgekomen), en wij zijn er van overtuigd dat met de genomen en te nemen maatregelen de problemen zoals vorige week opgetreden zich niet kunnen herhalen.

Mocht u vragen of opmerking hebben naar aanleiding van dit bericht of de storing dan horen wij het graag.

Het Greenhost Team.