Suivi des incidents sur l'infrastructure des clusters


1. 2013

Date

Évènements

Conséquences

Actions

01/08/13 - 14H24

Disjoncteur Clim Info saute

Arrêt des nœuds du cluster par procédure d'urgence

25/07/13 - 14H30

Disjoncteur Clim Info saute

Monter en température de la salle info > 42 °C

Arrêt manuel des nœuds

19/07/13 - 10H25

Yotta #3 - Enc #3 - Slot #10

Changement du disque

14/07/13 - 5H05

Yotta #1 - Enc #1 - Slot #4

Changement du disque

12/07/13

Yotta #2 - Enc #1 - Slot #22

Changement du disque

08/07/13

Arrêt cluster

Intervention SNEF sur climatisation

2 jours d'intervention

11/06/13

Arrêt cluster

Intervention SNEF sur climatisation

action sur les motos-ventilateurs

10/06/13

Yotta #4 - Enc #2 - Slot #4

Changement du disque

temps de reconstruction du raid = 56H

23/05/13

Yotta #3 - Enc #3 - Slot #7

Changement du disque

21/05/13 - 7H05

Arrêt cluster

Arrêt programmé pour intervention EDF sur transformateur OMP

18/05/13

Yotta #1 - Enc #1 - Slot #22

Changement du disque

16/05/13 - 14H34

Yotta #1 - Enc #1 - Slot #3

Changement du disque

19/04/13

Yotta #2 - Enc #3 -Slot #10

Changement du disque

18/04/13 - 3H22

Yotta #2 - Enc #3 - Slot #4

Changement du disque

17/04/13 - 16H30

Yotta #2 -Enc #3 - Slot #23

Changement du disque

02/01/13

N22

Service TAG du nœud 22 : D3J3J4J Disque 500GB HS (DELL Seagate Barracuda ES.2, ST3500320NS) :S/N = 9QMC1AQM

08/01/13 - 10H01

Yotta #2 - Enc #2 - Slot #14

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

08/01/13 - 10H07

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

09/01/13 - 09H11

Fin reconstruction Yotta #2 - Enc #2- Slot #14

16/01/13 - 20H39

Yotta #2 - Enc #3 - Slot #20

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2VLAY

17/01/13 - 08H37

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

18/01/13 - 15H57

Fin reconstruction Yotta #2 - Enc #3- Slot #20

18/01/13

Nombreux noeuds ne répondant pas

pbs time out du rm (remove) sur file système XFS

21/01/13 - 16H27

Yotta #1 - Enc #2 - Slot #16

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2M0W4

21/01/13 - 16H43

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

22/01/13 - 15H57

Fin reconstruction Yotta #1 - Enc #2- Slot #16

2. 2012

Date

Évènements

Conséquences

Actions

09/01/12

Summit2 n103

problème mémoire A1

échange mémoire A1 avec A3, test mémoire, reprise

25/01/12

Summit2 n108

problème mémoire B2

échange mémoire B2 avec B1, test mémoire, reprise.

25/01/12 - 14H46

Yotta #1 - Enc #3 - Slot #22

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : QJ2KQ3F

25/01/12 - 15H59

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

26/01/12 - 14H49

Fin reconstruction Yotta #1 - Enc #3- Slot #22

19/02/2012 - 08H17

noeud N127

pas de réponse à l'IPMI

Intervention manuelle

23/02/12 - 09H55

Montage nfs /raid4, /raid5, /raid6 impossible, aum2 est figé.

Dernière écriture 23/02/12 - 07H53

Reset de aum2. Relance du service nfsserver

08/03/12 - 15H15

Yotta #1 - Enc #3 - Slot #23

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : QJ2L6EP

02/04/12 - 12H01

Perte de connectivité avec le jbod de la baie raid de aum4 (Yotta #4 - Enc #3)

Impossible de reprendre la main ou de relancer le contrôleur.

Arrêt du serveur et redémarrage à froid de la baie et des jbods. Pas d'incident au redémarrage. Tous les nœuds qui ont démarré alors que les zones NFS ne répondaient plus se sont plantés (comportement normal).

18/04/12 - 13H58

Yotta #2 - Enc #1 - Slot #5

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2CWJZ

18/04/12 - 14H34

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

19/04/12 - 18H00

Fin reconstruction Yotta #2 - Enc #1- Slot #5

29/05/12 - 10H02

Yotta #2 - Enc #3 - Slot #23|Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

08/06/12 - 12H14

Yotta #1 - Enc #3 - Slot #4|Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

31/07/12 - 13H58

Yotta #2 - Enc #3 - Slot #4|Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

23/08/12 - 05H51

Yotta #1 - Enc #1 - Slot #2

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

23/08/12 - 08H31

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

24/08/12 - 08H17

Fin reconstruction Yotta #1 - Enc #1- Slot #2

01/10/12 - 09H54

Yotta #2 - Enc #1 - Slot #2

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

25/09/12 - 19H44

Yotta #1 - Enc #1 - Slot #6

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

01/10/12 - 09H54

Yotta #2 - Enc #1 - Slot #2

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

03/10/12 - 22H48

Yotta #1 - Enc #1 - Slot #6

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

07/11/12 - 11H29

Yotta #2 - Enc #1 - Slot #18|Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

07/11/12 - 11H31

Yotta #2 - Enc #1 - Slot #14|Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

10/11/12 - 15H00

Fin incident , perte totale de la zone raid

|12/11/12 - 10H48

Yotta #2 - Enc #1 - Slot #17

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

24/12/12 - 05H01

Yotta #1 - Enc #2 - Slot #2

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° :

24/12/12 - 11H38

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

25/12/12 - 10H47

Fin reconstruction Yotta #1 - Enc #2- Slot #2

3. 2011

Date

Évènements

Conséquences

Actions

05/04/11 - 15H45

Pb alimentation sur onduleur baie des services

DNS1, SV10 et BOB sont tombés.

Services relancés

15/04/11 - 07H30

Coupure réseau Campus

19/04/11 - 11H29

Arrêt Summit2

Réorganisation des nœuds et ajout du châssis réseau HP

19/04/11 - 11H52

Arrêt Silos

Réorganisation des nœuds et ajout du châssis réseau HP

19/04/11 - 15h04

redémarrage Silos

fin ajout du châssis réseau HP

19/04/11 - 15H25

Panne alimentation Yotta2 - E#1 - Power#2

on travaille sur le jbod avec deux alims sur trois

appel Additional Design pour envoi express alimentation

19/04/11 - 15H33

Yotta #2 - Enc#2 - Slot #3

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2B63B

19/04/11 - 16H05

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

20/04/11 - 07H55

Yotta #2 - Enc #2 - Slot #20

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : QJ25RV6

20/04/11 - 12H22

Fin reconstruction Yotta2 - Enc #2 - Slot #3

20/04/11 - 13H01

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

20/04/11 - 15H41

Yotta #1 - Enc#3 - Slot #20

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : QJ2LZ7S

20/04/11 - 15H50

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

21/04/11 - 10H01

Fin reconstruction Yotta2 - Enc #2 - Slot #20

21/04/11 - 12H14

Fin reconstruction Yott1 - Enc #2 - Slot #20

22/04/11 - 10H16

Reçu alimentation de Additional Design

29/04/11 - 12H50

Yotta #2 - Enc #3 - Slot #5

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : QMC8CEQ

29/04/11 - 13H57

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

30/04/11 - 11H22

Fin reconstruction Yotta2 - Enc #3 - Slot #5

23/06/11 - 11h00

Coupure réseau Campus

25/06/11 - 12H00

Yotta #1 - Enc #1 - Slot #5

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : J2E0BT HDD Repaired

27/06/11 - 03H29

Yotta #2 - Enc #3 - Slot #15

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 série n° : J2XJ9W HDD Repaired

27/06/11 - 09H27

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

27/06/11 - 09H28

Chgt de disque, lancement reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

28/06/11 - 03H25

Fin reconstruction Yotta #1 - Enc #1 - Slot #5

28/06/11 - 08H45

Fin reconstruction Yotta #2 - Enc #3 - Slot #15

12/07/11 - 21H04

détection erreur sur alimentation châssis réseaux HP

27/07/11 - 20H52

Dell #1 - Enc #1 - Slot #7 Disk failure - raid en mode dégradé.(raid7)

29/07/11 - 14H00

Tentative de remplacement du disque. Échec, n'est pas Dell qui veut. Arrêt de aum3 (mise en protection des données des raid 7 et raid8. Appel DELL sur le tag HK7JW4J. Disque spare prévu le 1/8/11 01/08/11 - 10H24

Chgt de disque, lancement de la reconstruction

02/08/11 - 03H47

fin reconstruction

02/08/11 - 11H15

relance aum3 02/08/11 - 14H47

Relance Fuxi suite à intervention sur la zone /raid7

04/08/11 - 20H13

Perte RENATER Début Incident 04/08/2011 20:13:00 Fin Incident 04/08/2011 23:39:00 Une maintenance sur le site client est à l'origine de cet incident. La connectivité est rétablie 10/08/11 - 15H04

Yotta #1 - Enc #2 - Slot #9 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2B753 10/08/11 - 16H19

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 11/08/11 - 4H12

Coupure EDF Les nœuds sont tombès.

11/08/11 - 14H19

Fin reconstruction Yotta #1 - Enc #2 - Slot #9

11/08/11 - 14H45

Reprise de l'activité des clusters suite à la coupure de ce matin

28/09/11 - 09H19

Yotta #2 - Enc #2 - Power #2 Alimentation n° 2 HS

28/09/11 - 11H04

Changement alimentation par alimentation en spare L'alimentation en spare provient de la commande Additional Design de septembre 2011. 24/10/11 - 14H35

Yotta #1 - Enc #1 - Slot #21 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2ESKR 24/10/11 -14H48

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 25/10/11 - 14H20

Fin reconstruction Yotta #1 - Enc #1 - Slot #21

06/11/11 - 06H25

PDU n° 2 Baie n° 1 Hors service

06/11/11 - 17H45

Intervention Didier, chgt du fusible, mais Pbs sur la prise d'alimentation du PDU 07/11/11 - 11H54

démontage PDU, réparation de la prise, remontage PDU 14/11/11 - 17H29

PDU n° 1 Baie n° 1 Hors service

14/11/11 - 18H30

Intervention Didier, chgt du fusible. 14/11/11 - 18H30

12/12/11 - 9H00

arrêt clusters Maintenance de la climatisation par la société SNEF Changement de système sur la frontale d'administration (bascule sur OpenSuSE 11.4, kernel 2.6.37, BProc Labo Aerologie). Mise a jour des frontales utilisateurs (Summit2, FUXI) et mise en place d'une version Slurm 2.3.2 avec activation d'une base de données MySQL pour l'accounting. Recablage électrique des baies 2 et 3. Recablage réseau. Ajout de 2 nœuds n[139-n140] équipes de 2 GPUS chacun, accessibles depuis la partition slurm 'gpus' . La climatisation a tournée 32000 H. (3 ans et 8 mois)

14/12/11 - 10H00

PDU n°1 Baie n° 2 Hors service

démontage PDU, réparation de la prise, remontage PDU 15/12/11 - 11H00

reprise clusters

15/12/11 - 23H34

Yotta #1 - Enc #1 - Slot #5 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2L0HE 16/12/11 - 09H23

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : )

Fin reconstruction Yotta #1 - Enc #1 - Slot #5

4. 2010

Date

Évènements

Conséquences

Actions

06/01/10

Pbs sur silo aerosv4

Erreur I/O sur la chaine SCSI 18/01/10

Envoi RMA Seagate

Disque Seagate ST 1 To ES2 (Série n° : 9QJ2M21T) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2BPB0) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2L5ZW) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2B1YF)

22/01/10

Retour RMA Seagate

Disque Seagate ST 1 To ES2 (Série n° : 5QJ0ZZMJ) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2XJ9W) Disque Seagate ST 1 To ES2 (Série n° : 5QJ0NDXM) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2ALB9) 26/01/10 - 13H38

Yotta1 – Enc#1 – Slot 23 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2LSEK) 26/01/10 - 14H06

Raid en reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ?) 27/01/10 - 12H06

Fin de reconstruction

03/03/10 – 15H28

Yotta1 – Enc#1 – Slot 5 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2LNN7) 03/03/10 - 16H01

Raid en reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ?) 04/03/10 - 15H41

Fin de reconstruction

10/03/10 - 20H04

Arrêt cluster Ying et Yang Alarme alimentation sur stockage Suite à une interruption (35s) de l'un des onduleurs des baies clusters (onduleur A) Yang, Tao sont tombés, perte du réseau giga sur clusters donc les noeuds sont tombés, alarme sur stockage car défaut partiel alimentation (une sur trois)

11/03/10 - 10H30

Reprise activité

21/04/10

Arrêt pocsv6 Disque dur système HS Activation garantie pour chgt disque dur. 04/05/10 - 17H22

Yotta1 – Enc#1 – Slot 4 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2LZ6V) 04/05/10 – 18H17

Raid en reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ?) 05/05/10 – 22H12

Fin de reconstruction

06/05/10 – 16H34

Yotta1 – Enc#1 – Slot 18 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2L408) 06/05/10 – 19H17

Raid en reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ?) 07/05/10 – 23H42

Fin de reconstruction

17/05/10 - 15H15

Aerosv8 – raid1 - sdb1 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 160 Go (non garantie)

17/05/10 - 20H18

Fin reconstruction suite au changement du disque Changement du disque par Disque Seagate ST 1T60 Go 01/06/10

Envoi RMA Seagate Order : 1003058181 Order : 1003058184 Order : 1003058188 Order : 1003064952 Order : 1003064937 Disque Seagate ST 1 To ES2 (Série n° : 9QJ2LNN7 ) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2LSEK ) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2LZ6V ) Disque Seagate ST 1 To ES2 (Série n° : 9QJ2L408 ) Disque Seagate ST 1 To ES2 (Série n° : 9QJ28NYK )

01/06/10 - 07H10

Coupure EDF (7H10 → 7H31) Arret clusters, aerosv, pocsv et qqs services Arret brutal sur silos → perte de trois disques Reprise service, aerosv dans la matinée. Lancement des reconstructions sur les silos de stockage. On en profite pour mettre en place la nouvelle architecture des clusters. 01/06/10 - 11H28

Yotta 1 – Enc #2 – Slot #12||<tablestyle="text-align: center;width:100%;" rowbgcolor="#FFE0E0"> Date || || Évènements || Conséquences || Actions || Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To Go (Série n° : 9QJ2C1C3) 02/06/10

Fin reconstruction suite au changement du disque Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 5QJONDXM) 01/06/10 - 11H28

Yotta 1 – Enc #1 – Slot #8 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To Go (Série n° : 9QJ2L5Y1) 02/06/10

Fin reconstruction suite au changement du disque Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 5QJOZZMJ) 01/06/10 - 11H44

Yotta 2 – Enc #1 – Slot #9 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To Go (Série n° : 9QJ2ADZY) 02/06/10 - 08H44

Fin reconstruction suite au changement du disque Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 9QJ1NWS1) 02/06/10 - 09H01

Yotta 2 – Enc #1 – Slot #22 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To Go (Série n° : 9QJ26W4Y) 02/06/10

Fin reconstruction suite au changement du disque Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 9QJ2C8VT) 21/08/10 - 20H57

EDF micro coupure Les noeuds des clusters sont tombés.

Au redémarrage deux fusibles de protection ont du être changés sur les PDU NEC. 28/08/10 - 09H50

Yotta2 - Enc #2 - Slot #18 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ20ZB3) 30/08/10 - 09H00

Chgt de disque , lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 31/08/10 - 8H54

Fin reconstruction

13/09/10 - 11H07

Yotta2 - Enc #3 - Slot #13 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2LNLE) 13/09/10 - 11H19

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 14/09/10 - 9H11

Fin reconstruction

20/09/10 - 13H00

Aum1 freeze relance du serveur

22/09/10 - 10H26

Yotta1 - Enc #1 - Slot # 20 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (série n° : 9QJ16C7X) 22/09/10 - 10H33

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 23/09/10 - 16H38

Fin reconstruction

02/10/10 - 21H

Incidents électriques Perte des dilos de stockage et des clusters Suite à une interruption de l'un des onduleurs de la baie de stockage, perte du réseau giga sur clusters donc les noeuds sont tombés, alarme sur stockage car défaut partiel alimentation (une sur trois).

03/10/10 - 15H13

Reprise activité

08/10/10 - 2H21

Yotta2 - Enc #2 - Slot # 2 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 (série n° : 9QJ29JKL) 08/10/10 - 9H16

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 09/10/10 - 9H42

Fin reconstruction

10/11/10 - 13H12

Yotta2 - Enc #3 - Slot #3 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2KPX6) 10/11/10 - 13H57

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 11/11/11 - 9H05

Yotta1 - Enc #1 - Slot #22 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2LXKB) 11/11/10 - 10H08

Yotta2 - Enc #3 - Slot #20 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2KQBH 11/11/10 - 11H52

Fin reconstruction Yotta2 - Enc #3 - Slot #3

11/11/10 - 15H05

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 11/11/10 - 15H28

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 12/11/10 - 13H22

Fin reconstruction Yotta2 - Enc #3 - Slot #20

12/11/10 - 22H18

Fin reconstruction Yotta1- Enc #1 - Slot #22

20/11/10 - 9H50

Yotta2 - Enc #3 - Slot #15 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2KCQ7 21/11/10 - 19H13

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 22/11/10 - 16H45

Fin reconstruction Yotta2 - Enc #3 - Slot #15

01/12/10 - 15H48

Yotta #2 - Enc #1 - Slot #24 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ2DGR5 01/12/10 - 15H58

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 02/12/10 - 12H02

Yotta #2 - Enc#1 - Slot #1 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ1NL1X 02/12/10 - 13H22

Fin reconstruction Yotta2 - Enc #1 - Slot #21

02/12/10 - 13H50

Chgt de disque, lancement reconstruction Changement du disque par Disque Seagate ST 1To ES2 (Série n° : ) 03/12/10 - 12H15

Fin reconstruction Yotta2 - Enc #1 - Slot #1

21/12/10 - 6H55

Arret clusters Mise en arrêt pour intervention EDF sur transfo alimentant l'OMP On en profite pour installer de nouvelles lames et faire quelques mises à jour matérielle 22/12/10 - 11H00

Reprise

02/12/10 - 12H02

Yotta #2 - Enc#1 - Slot #1 Raid en mode dégradé Disque en erreur sur Disque Seagate ST 1To ES2 série n° : 9QJ1NL1X

5. 2009

Date

Évènements

Conséquences

Actions

28/01/2009 – 16:12

interface réseau tombée

Reboot Tao

03/02/2009 – 17:40

Cluster Yang relancé

06/02/2009 – 17:20

interface réseau tombée

Reboot Tao

11/02/2009 – 11:15

cluster Yang relancé, cluster Yin relançè

04/03/2009 – 11:11

interface réseau tombée

Reboot Tao

13/03/2009 – 09:15

interface réseau tombée

Reboot Tao

26/03/2009 – 10:45

interface réseau tombée

Reboot Tao

06/04/209

Reboot Tao

06/04/2009 – 11:19

max pid atteint sur Yang

plus de run possible sur Yang

Cluster Yang relancé

10/04/2009

interface réseau tombée

Reboot Tao

03/03/2009

envoi RMA Additional Design

envoi RMA Seagate

Disque Seagate ST 1To ES2 (Série n° : 9QJ2KYLC)
Disque seagate ST 1 To ES2 (Série n° : 9QJ28HPF)

05/03/2009

retour RMA Additional Design

Disque Seagate ST 1To ES2 (Série n° : 9QJ30E5X)

10/03/2009

retour RMA Seagate

Disque Seagate ST 1To ES2 (Série n° : 9QJ16C7X)

12/04/2009 – 04:26

Basse pression compresseur 2

Arrêt groupe 2 de la climatisation

13/04/2009 – 20:13

Haute température (27°C)

Température en salle au plafond de 30°C

14/04/2009 – 13:22

Arrêt clusters Yin et Yang.
Appel service entretien OMP

15/04/2009 – 09:30

Intervention Promo-Sanit

Validation panne

Réparation programmée pour le 16/04/2009 dans l'après-midi.
Reprise des maitres Yin et Yang.
Reprise des noeuds 20 à 24 de Yang

16/04/2009 – 09:10

Intervention Promo-Sanit

Nettoyage des condenseurs
Fuite constatée au niveau de la sortie de mur.
Vidage gaz, réparation, remise en pression.

16/04/2009 – 16:42

Fin Intervention Promo-Sanit

Mise en service total de la salle

Redémarrage noeuds Yin et Yang.

21/05/09

Détection présence eau sous plancher

25/09/2009 – 22:49

Yotta2 - Enc#1 - Slot 11

Raid en mode dégradé

26/09/2009 – 10:08

Raid en reconstruction

Changement du disque concerné
Disque Seagate ST 1To ES2 (Série n° : 9QJ2L5ZW)

27/09/09

Fin de la reconstruction

18/10/09 - 23H

EDF Coupure ~ 15 s

Les clusters Yin et Yang sont tombés

19/10/09 – 11H46

Redémarrage du cluster yang puis du cluster Ying

20/10/09 – 16H

Erreur kernel NFS sur aum1

Aum1 et yang sont dans les choux au moins depuis le redémarrage d'hier

Arret cluster yang
Arret aum1
xfs-repair sur la zone raid2

20/10/09 - 17H

Redémarrage de Aum1 et du cluster Yang

18/11/09 – 11H

Yotta1 – Enc#2 – Slot 12

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1To ES2 (Série n° : 9QJ2B1YF)

18/11/09 – 11H40

Raid en reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 9QJ2C1C3)

19/11/09 - 14H30

Fin de reconstruction

01/12/09 – 18H53

Arrêt des onduleurs de la baie 1

SV11,SV3, MESONH2, SV5, SV1, SV6, SV2, SV4 sont tombés

02/12/09 – 10H16

Damien Boulanger redémarre SV6

02/12/09 – 14H30

Redémarrage des serveurs et silos sauf SV1

Panne inexpliquée, soupçon sur alimentation silo sv1 ayant entrainé court-circuit, avec la problématique d'une double alimentation à masse commune, donc les deux onduleurs ont activés leurs protections.

10/12/09 – 13H47

Yotta1 – Enc#3 -Slot 10

Raid en mode dégradé

Disque en erreur sur Disque Seagate ST 1T0 ES2 (Série N° : 9QJ2M21T)

10/12/09 – 14H10

Raid en reconstruction

Changement du disque par Disque Seagate ST 1To ES2 (Série n° : 9QJ2C1S3)

11/12/09 - 12H44

Fin de reconstruction


CatégoriePageAdmin

WikiSummit2: SuiviCluster (dernière édition le 2013-08-05 10:26:19 par aeropc6)