Page tree
Skip to end of metadata
Go to start of metadata

Maandagochtend 15 februari van 7:26 tot 8:10 was er storing op het portal. Om 7:31 werden wij hier door een automatisch systeem op geattendeerd. We zijn toen zo snel mogelijk aan de slag gegaan om het probleem te onderzoeken en op te lossen. Het bleek dat er om 7:26 een probleem was opgetreden met de opslag van de database server. Deze is toen automatisch succesvol naar de backup-database overgeschakeld. Helaas bleken de applicatieservers niet goed met deze switch te kunnen omgaan.

Om 7:55 hebben we een nieuwe serie applicatieservers gestart. Het duurde toen 15 minuten voordat het opstarten voltooid was en voordat het systeem voldoende gestabiliseerd was om het weer echt te kunnen gebruiken.

We zijn de afgelopen dagen bezig geweest om de precieze oorzaak van de problemen te achterhalen. Dat is gelukt, en om herhaling te voorkomen hebben we een aantal wijzigingen doorgevoerd. Deze aanpassingen zullen beschikbaar komen in versie 1.4 van het portal, die we binnen enkele weken verwachten.

  1. De pagina met de foutmelding is uitgebreid zodat hier meer informatie op staat. We kunnen nu makkelijker iedereen op de hoogte houden van de voortgang van de reparatie.
  2. De configuratie van de applicatieservers is aangepast zodat deze nu goed kunnen omgaan met een fail-over van de database.
  3. De controle op de gezondheid van de applicatieservers is uitgebreid zodat deze nu automatisch vervangen worden als er een probleem is met de database connectie.

Verder gaan we voortaan het automatisch detecteren en oplossen van problemen onder realistischere omstandigheden testen.

Het portal heeft de afgelopen twee jaar zonder problemen gedraaid, en we gaan er eigenlijk vanuit dat we een behoorlijke tijd moeten wachten op een volgende storing.

  • No labels