PDA

Visualizza la versione completa : strumenti per diagnostica crash del server


james
07-03-2008, 09:05
Questa mattina mi sono svegliato ed il server con una debian 4.0 r0 i3 era in freeze...

Resettato ed ripartito, ma vorrei cercare di capire cosa successo. Quali log dovrei controllare? Inoltre ho notato che all'avvio c'era una roba tipo:

EXT3-FS: recovery required on read only file system

significa che ha notato qualcosa di errato negli HD (Raid 1 con un controller sata 3ware)? O potrebbe esserci un errore nel FS ma magari gli HD sono intatti?

Da dove iniziereste per fare una diagnosi?

james
07-03-2008, 09:08
dimenticavo, qualcosa inizata ad andare male ieri, mentre stavo testando un sistema di backup, il che mi fa presupporre che il problema possa essere il FS o gli HD, perch nel fare il backup magari andato a leggere dei file in delle allocazioni danneggiate, questo spiegherebbe la dicitura al boot, ma il blocco sarebbe dovuto essere istantaneo nel momento della lettura del dato file/files presente/i nella porzione di HD o FS danneggiati.

james
07-03-2008, 09:52
dmesg mi dice questo esattamente:


EXT3-fs: INFO: recovery required on readonly filesystem.
EXT3-fs: write access will be enabled during recovery.
kjournald starting. Commit interval 5 seconds
EXT3-fs: sda1: orphan cleanup on readonly fs
ext3_orphan_cleanup: deleting unreferenced inode 24051733
ext3_orphan_cleanup: deleting unreferenced inode 24051725
ext3_orphan_cleanup: deleting unreferenced inode 24051727
ext3_orphan_cleanup: deleting unreferenced inode 24051722
ext3_orphan_cleanup: deleting unreferenced inode 19054738
EXT3-fs: sda1: 5 orphan inodes deleted
EXT3-fs: recovery complete.
EXT3-fs: mounted filesystem with ordered data mode.


Quindi sembrerebbe che il problema al FS sia stato risolto, ma la cosa non mi convince affatto...non credo che se il problema era questo, risolto immediatamente al boot ad una velocit tale che non sono neanche riuscito a leggerlo, abbia mandato in freeze il server, sbaglio? cosa ne pensate?

james
07-03-2008, 10:02
ad esempio, in questo preciso istante, ho notato che i due HD in Raid 1 stavano lavorando fissi, e dal software di gestione della scheda 3ware noto che il Raid era degradato ed in ricostruzione...ora le domande sono:
[list=1]
un HD andato?
come faccio a capirlo? Volendo ora si allineano, ma io non ho capito xke uno dei due rimasto indietro, tra l'altro se era completamente andato doveva entrare l'hot spare in gioco, invece il controller ha lasciato l'hot spare da parte ed ha iniziato la ricostruzione del mirroring.
Come faccio a capire se un HD da sostituire? Tecnicamente se la ricostruzione (al momento al 48%) termina bene...significa che l'HD non guasto.
Come faccio a capire quale dei due HD del Raid 1 rimasto indietro? Il software di gestione del controller non me lo dice, mi dice solo che il Raid set in ricostruzione. Attraverso le informazioni S.M.A.R.T. lo si pu dedurre? (non so neanche cosa siano)
[/list=1]

S.M.A.R.T. (Controller ID 0 - Port 0)
0A 00 01 0F 00 6C 63 00 00 00 00 00 00 00 03 03
00 5F 5F 00 00 00 00 00 00 00 04 32 00 64 64 0B
00 00 00 00 00 00 05 33 00 64 64 00 00 00 00 00
00 00 07 0F 00 51 3C 38 67 08 07 00 00 00 09 32
00 63 63 AA 06 00 00 00 00 00 0A 13 00 64 64 00
00 00 00 00 00 00 0C 32 00 64 64 0D 00 00 00 00
00 00 BB 32 00 64 64 00 00 00 00 00 00 00 BD 3A
00 64 64 00 00 00 00 00 00 00 BE 22 00 43 35 21
00 19 21 00 00 00 C2 22 00 21 2F 21 00 00 00 19
00 00 C3 1A 00 40 3A CA 46 CF 05 00 00 00 C5 12
00 64 64 00 00 00 00 00 00 00 C6 10 00 64 64 00
00 00 00 00 00 00 C7 3E 00 C8 C8 00 00 00 00 00
00 00 C8 00 00 64 FD 00 00 00 00 00 00 00 CA 32
00 64 FD 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 82 00 AE 01 00 5B
03 00 01 00 01 5C 02 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 05 05 05 05 05 05 05 05 05 00
00 00 00 00 00 00 00 01 68 C9 4B 1B 00 00 00 00
00 00 DC 43 26 40 D5 00 00 00 00 00 00 00 00 00
00 00 00 00 68 C9 4B 1B 00 00 00 00 00 00 00 00
02 00 01 00 00 00 00 00 00 00 1B 75 5C 15 01 00
00 00 50 A2 67 13 00 00 00 00 8B 05 00 00 00 00
FE FF 01 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 84


S.M.A.R.T. (Controller ID 0 - Port 1)
0A 00 01 0F 00 6C 5C EA 17 31 01 00 00 00 03 03
00 5F 5F 00 00 00 00 00 00 00 04 32 00 64 64 07
00 00 00 00 00 00 05 33 00 64 64 00 00 00 00 00
00 00 07 0F 00 52 3C F1 44 EB 0A 00 00 00 09 32
00 61 61 82 0A 00 00 00 00 00 0A 13 00 64 64 00
00 00 00 00 00 00 0C 32 00 64 64 09 00 00 00 00
00 00 BB 32 00 64 64 00 00 00 00 00 00 00 BD 3A
00 64 64 00 00 00 00 00 00 00 BE 22 00 44 33 20
00 18 21 00 00 00 C2 22 00 20 31 20 00 00 00 18
00 00 C3 1A 00 3C 3A 38 C4 25 00 00 00 00 C5 12
00 64 64 00 00 00 00 00 00 00 C6 10 00 64 64 00
00 00 00 00 00 00 C7 3E 00 C8 C8 00 00 00 00 00
00 00 C8 00 00 64 FD 00 00 00 00 00 00 00 CA 32
00 64 FD 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 82 00 AE 01 00 5B
03 00 01 00 01 5C 02 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 01 05 05 05 05 05 05 05 05 00
00 00 00 00 00 00 00 01 F5 4C 85 19 00 00 00 00
00 00 A1 10 84 3D 50 01 00 00 00 00 00 00 00 00
00 00 00 00 F5 4C 85 19 00 00 00 00 00 00 00 00
02 00 01 00 00 00 00 00 00 00 5C 99 EF 39 01 00
00 00 18 7D 39 04 00 00 00 00 5B 09 00 00 00 00
22 24 00 00 00 00 00 00 00 00 00 00 00 00 00 00
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 43

james
07-03-2008, 10:18
l'error-log del controller mi dice

SELF TEST: port #0: SMART check passed;

SELF TEST: port #1: SMART check passed;

SELF TEST: port #2: SMART check passed;

SELF TEST: SBuf step #0: preparation;

SELF TEST: SBuf step #1: quick test disabled;

SELF TEST: SBuf step #2: clean-up;

SELF TEST: all tests completed.


per poi, dopo un po'

E=0204 I=00931B54 T=05:07:46 : Port timeout (ext)

ata task file written out : cd dh ch cl sn sc ft

: 25 40 92 6D 8F 70 00

Send AEN (code, time): 0x9, 01/21/2008 05:07:46

Drive timeout detected

(EC:0x09, SK=0x04, ASC=0x00, ASCQ=0x00, SEV=01, Type=0x71)

port=1

ata task file read back : st dh ch cl sn sc er

: 50 40 92 6D 8F 70 00

E=0204 I=00931B54 T=05:07:46 P=1 : Soft reset drive

ata task file read back : st dh ch cl sn sc er

: 51 00 00 00 01 01 05

ata task file read back : st dh ch cl sn sc er

: 50 00 00 00 01 01 01

E=0204 I=00931B54 T=05:07:46 P=1 : Hard reset drive

ata task file read back : st dh ch cl sn sc er

: 50 00 00 00 01 01 01

E=0204 I=00931B54 T=05:07:46 P=1 : Unlock drive

E=0204 I=00931B54 T=05:07:46 P=1 : Check power cycles, initial=8, current=8

E=0204 I=00931B54 T=05:07:46 P=1 : Port retry not allowed

E=0204 I=00931B54 T=05:07:46 P=1 : Prepare for command retry

E=0204 I=009240E4 T=05:07:46 U=0 : Retrying command



e via via errori cos
E=010C I=00924364 T=09:05:37 : Parameter index does not exist

E=010C I=00924364 T=09:05:37 U=0 : Return error status to host

Error, Unit 0: Parameter index does not exist

(EC:0x10c, SK=0x05, ASC=0x26, ASCQ=0x00, SEV=01, Type=0x70)

No additional sense data

Error, Unit 64: Logical unit not present

(EC:0x10a, SK=0x05, ASC=0x25, ASCQ=0x00, SEV=01, Type=0x70)

unit=64

Error, Unit 64: Logical unit not present

(EC:0x10a, SK=0x05, ASC=0x25, ASCQ=0x00, SEV=01, Type=0x70)

unit=64

param : Table 0x0301, param 0x14, size 1


ma in ogni caso non mi specifica se un HD la causa o cosa, mai trovati in una situazione del genere? Cmq mi sembra ormai scontato che il problema un HD, o il controller, o il FS, sicuramente non RAM, o altri ciaffi, e comunque, se anche il Raidset degradato, e uno dei due HD andato a puxxane, anche se lo SMART control dice che sono ok, perch tutto andato in freeze?! Il controller di norma esclude l'HD guasto, lo sostituisce con l'hotspare e ricostruisce l'array, gi successo ha funzionato, quindi il dubbio tremendo che ho che ci siano problemi ad entrambi gli HD del raid set (ma mi sembra un caso troppo sfigato), o c' qualcosa che sfugge o oltre alla mia semplice portata...

Tra l'altro sempre il software del controller mi dice che c' stato un "Unclean shutdown detected" e quindi ha iniziato la ricostruzione, da questo verrebbe da pensare che qualcosa ha mandato il freeze il server, io sono stato costretto al riavvio forzato e quindi alcuni dati non sono stati scritti su entrambi i dischi per via del freeze, freeze che per da cosa pu dipendere??

Ora il quadro dovrebbe esservi + chiaro rispetto all'inizio..

Loading