Crash de Flus durant la nuit

Cet incident est terminé.

Cette nuit à 1h14, la base de données PostgreSQL du serveur faremis a reçu un signal SIGTERM car elle utilisait trop de mémoire. Cela a mené à l’arrêt de la base de données et donc l’impossibilité pour le service app.flus.fr de fonctionner correctement.

J’ai redémarré la base de données à 8h18, dès que je m’en suis rendu compte. J’ai également diminué la mémoire que la base de données peut prendre afin que le problème ne survienne plus.

Un problème dans le code de Flus a par ailleurs empêché mon outil de supervision de détecter que le service ne fonctionnait plus : je n’ai donc pas reçu d’alerte et l’incident ne s’est pas affiché sur status.flus.fr. Le bug a été corrigé et déployé en production ce soir.