Page tree
Skip to end of metadata
Go to start of metadata

13 september 2016, van 7:33 tot 8:34 was er een storing op het portal. De oorzaak van deze storing was een bug in een gebruikte component, in combinatie met een automatisch regelsysteem wat overcompenseerde voor de extra belasting.

Tijdlijn:

 1. 12 september om 14:33 werd de bug in een component getriggerd. Vanaf dat moment was er hoog CPU gebruik, en dit had tot gevolg dat extra servers werden gestart om deze belasting op te vangen. Dit is toen niet opgemerkt.
 2. De volgende dag, 13 september om 7:33, nam (zoals elke ochtend) de drukte op het portal toe. Door het grote aantal servers wat sinds de vorige dag actief was leidde dit tot een grotere belasting van de database, die om 7:34 voor honderd procent belast was. Daarna konden niet meer alle verzoeken afgehandeld worden. Vanaf dit moment nam het aantal fouten toe.
 3. Om 7:47 kwam een geautomatiseerde melding binnen dat er problemen met het portal zouden kunnen zijn. Direct hierna kwam een melding dat de problemen weer voorbij waren. Omdat het naar verwachting was dat het systeem zichzelf zou herstellen is niet direct actie ondernomen.
 4. Om 8:00 bleek toch dat het probleem niet was opgelost, en om 8:15 is een beheerder aan de slag gegaan om het te onderzoeken.
 5. Om 8:23 zijn we begonnen met het afsluiten van het grote aantal servers, en daarna met het opstarten van een aantal nieuwe. De databasebelasting nam direct af.
 6. Om 8:34 konden alle servers weer met de database verbinding maken en was de storing voorbij.

Om herhaling te voorkomen hebben we de volgende zaken uitgevoerd:

 1. De betreffende component is geupgrade naar een versie waarin de bug is gerepareerd. De reparatie is 13 september 16:40 neergezet met versie 1.6.3 van het portal.
 2. Het maximum voor het aantal automatisch te starten servers is verlaagd zodat de databaseservers niet teveel belast worden.
 3. We hebben extra automatische controles toegevoegd, waardoor we eerder geïnformeerd worden als er iets aan de hand is.
 4. We gaan sneller een onderzoek starten naar een melding, ook als we het idee hebben dat het probleem inmiddels weer voorbij is.
 • No labels