Panne de SSD sur mother #119
Labels
No Label
suivi
adhésion
amont
bloqué
bogue
déploiement
en cours
FSDG/RYF/libre
matériel
planifié
radiation
rejeté
résolu
vie privée/sécurité
No Milestone
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: cominfra/infra-generale#119
Loading…
Reference in New Issue
No description provided.
Delete Branch "%!s(<nil>)"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
Une panne d'un des disques dur de mother s'est produite durant la période du 14 avril au 22 avril 2022.
En voici un historique.
14/04/2022, 17h: premiers signes
Ce jour, @Cpm signale dans le salon XMPP Cominfra que la machine aunt subit un très fort chargement du système, semblant bloquer des accès disques et ralentissant énormément des commandes
apt full-upgrade
.14/10/2022, 19h10: première interprétation
@neox attribue le chargement de aunt à une DDoS en cours sur la machine dns, qui s'avère tourner sur la machine aunt. Pourtant, @Cpm signale à 19h45 que le chargement continue d'augmenter rendant un
git pull
de la forge git.a-lec.org très très lent (plus d'une minute).@neox stoppe la DDoS et arrête des dizaines de processus de backup encore en cours (du au chargement élevé durant plusieurs semaines probablement), et le chargement diminue... @neox conclut que la situation est résolue.
En effet, des
fallocate
tournaient sur / au lieu de /var/backups par erreur (faute de logique dans le script de backup) et @neox pense alors que c'était la cause, non visible avant que la DDoS ne ralentisse le retour d'appel système en erreur (qui normalement se produit quand fallocate atteint les /proc/* car ce sont des fichiers virtuels).Le chargement redescend à 9.
14/10/2022, 21h00: le mystère...
@neox et @cpm s'apercoivent que le chargement est remonté de plus belle et que la machine git est en vrac. @neox essaie un redémarrage de force de la machine git, et le chargement diminue.
À 21h30, la machine aunt affiche un chargement élevé:
A 21h40, c'est une crise, beaucoup de services sur aunt ne répondent plus ou tombent et @neox doit les redémarrer de force.
Cependant, la machine git a subi une corruption dans la bataille (redémarrage sans sync). Une sauvegarde est donc restorée et tout semble aller mieux.
A 00h00 tout semble résolu.
16/04/2022: révélation
@Cpm signale aunt à 200 de charge, dns et xmpp à moitié hs.
@neox s'aperçoit que la thèse de la DDoS ne tient pas: Les machines mother et aunt sont identiques et pourtant une différence de performance est visible via le logiciel
atop
: aunt n'attend d'I/O que 17% du temps en moyenne alors que pour mother c'est 80%. Il est également remarqué que l'état smart sur tous les disques semble bon, mais on a des ssd et les données smart ne donnent que peu d'informations sur l'usure électronique. @neox pense alors que si on prend en compte l'erreur du fallocate (qui dure depuis plusieurs mois!) on peut considérer une probabilité d'usure prématurée assez élevée.@croax confirme à @neox que le temps d'écriture sur ses vm est très long de même que les lectures (plus de 5s pour un
ls
par exemple)@neox analyse ainsi que mother est très lente à gérer les I/O et que aunt se charge car doit attendre que les écritures faites sur la partition DRBD soit validées du côté de mother. Cette lenteur serait donc liée à un disque en difficulté !
La décision est prise de migrer toutes les machines vers aunt et stopper la synchro DRBD.
Ce qui est observé sur mother au repos, après avoir arrêté DRBD :
Lorsque @neox lance un dd simple de /dev/urandom vers un fichier, on obtient alors :
Or, pour la même opération, sur aunt cela donne :
@Cpm confirme, complétant l'analyse, que
iostat
dit la même chose : la colonne %util montre une sévère différence, 13 % vs 63 %. Les différences de rMB/s, r_await et w_await semblent énormes sur mother. De telles différences ne sont pas visibles sur aunt.17/04/2022:
mdadm
se réveille@neox constate que
mdadm
déclare le disque /dev/sdb comme défectueuxUn disque est commandé en accord avec le CA.
22/04/2022: réparation
@neox installe dans mother le nouveau disque, remplaçant ainsi /dev/sdb dans le RAID1 de
mdadm
et relance la synchro DRBD avec aunt.Tout se passe comme prévu