Dedicated 1 - GRA1

  • État Fermée
  • Pourcentage achevé
    100%
  • Type Crash
  • Catégorie Dedicated 1
  • Assignée à Personne
  • Système d'exploitation All
  • Sévérité Haute
  • Priorité Très haute
  • Basée sur la version 1.0
  • Due pour la version Non décidée
  • Échéance Non décidée
  • Votes
  • Privée
Concerne le projet: Dedicated 1 - GRA1
Ouverte par megamov - 03.05.2023
Dernière modification par megamov - 16.09.2023

FS#162 - Incident serveur D1 - GRA1

Bonjour,

Nous avons reçu une alerte concernant la perte du serveur dédié principal de gravelines 1 à 9h50m.

Une intervention à dû être effectuée par le fournisseur, aucun défaut matériel n'a été constaté.

Le serveur à été redemarré, les services reprennent peu à peu. Nous analysons actuellement les causes de l'incident.



Good morning,

We received an alert regarding the loss of the main gravelines 1 dedicated server at 9:50 a.m.

An intervention had to be carried out by the supplier, no material defect was found.

The server has been restarted, the services resume part by part. We are currently analyzing the causes of the incident.

Fermée par  megamov
16.09.2023 16:29
Raison de la fermeture :  Fixed
Admin
megamov a commenté le 14.05.2023 00:02

La collecte des journaux système et de supervision est en cours. Aux premières analyses, une importante activité a été detecté sur le serveur la veille, la stabilisation s'est faite durant la nuit.

Cependant une latence disque excessive d'écriture disque a bien été enregistrée.



Collection of system and monitoring logs is in progress. In the first analyses, significant activity was detected on the server the day before, stabilization took place overnight.

However excessive disk write latency was recorded.

Admin
megamov a commenté le 28.05.2023 10:42

La collecte des données a bien été effectuée.

- Crash probablement causé par un problème au niveau des disques. Etant donné que le RAID est logiciel et que l'espace disponible sur le stockage principal est très faible, une defaillance critique aurait pu se produire.

Un changement de serveur est programmé, avec plus de ressources. Pour l'heure nous surveillons celui-ci afin d'éviter / prévenir un nouveau crash. Nous avons également mis en place un système de sauvegarde quotidien afin de limiter l'impact en cas de récidive plus grave.


Data collection was successful.

- Crash probably due to a disk problem. Since the RAID is software and the available space on the primary storage is very low, a critical failure may have occurred.

A change of server is scheduled, with more resources. For the time being we are monitoring this one in order to avoid / prevent a new crash. We have also implemented a daily backup system to limit the impact in the event of a more serious recurrence.

Chargement...

Activer les raccourcis clavier

Liste des tâches

Détails de la tâche

Édition de la tâche