Visualizzazione dei risultati da 1 a 5 su 5
  1. #1
    Utente di HTML.it L'avatar di james
    Registrato dal
    Jun 2002
    Messaggi
    1,481

    strumenti per diagnostica crash del server

    Questa mattina mi sono svegliato ed il server con una debian 4.0 r0 i3 era in freeze...

    Resettato ed è ripartito, ma vorrei cercare di capire cosa è successo. Quali log dovrei controllare? Inoltre ho notato che all'avvio c'era una roba tipo:

    EXT3-FS: recovery required on read only file system

    significa che ha notato qualcosa di errato negli HD (Raid 1 con un controller sata 3ware)? O potrebbe esserci un errore nel FS ma magari gli HD sono intatti?

    Da dove iniziereste per fare una diagnosi?

  2. #2
    Utente di HTML.it L'avatar di james
    Registrato dal
    Jun 2002
    Messaggi
    1,481
    dimenticavo, qualcosa è inizata ad andare male ieri, mentre stavo testando un sistema di backup, il che mi fa presupporre che il problema possa essere il FS o gli HD, perchè nel fare il backup magari è andato a leggere dei file in delle allocazioni danneggiate, questo spiegherebbe la dicitura al boot, ma il blocco sarebbe dovuto essere istantaneo nel momento della lettura del dato file/files presente/i nella porzione di HD o FS danneggiati.

  3. #3
    Utente di HTML.it L'avatar di james
    Registrato dal
    Jun 2002
    Messaggi
    1,481
    dmesg mi dice questo esattamente:

    EXT3-fs: INFO: recovery required on readonly filesystem.
    EXT3-fs: write access will be enabled during recovery.
    kjournald starting. Commit interval 5 seconds
    EXT3-fs: sda1: orphan cleanup on readonly fs
    ext3_orphan_cleanup: deleting unreferenced inode 24051733
    ext3_orphan_cleanup: deleting unreferenced inode 24051725
    ext3_orphan_cleanup: deleting unreferenced inode 24051727
    ext3_orphan_cleanup: deleting unreferenced inode 24051722
    ext3_orphan_cleanup: deleting unreferenced inode 19054738
    EXT3-fs: sda1: 5 orphan inodes deleted
    EXT3-fs: recovery complete.
    EXT3-fs: mounted filesystem with ordered data mode.
    Quindi sembrerebbe che il problema al FS sia stato risolto, ma la cosa non mi convince affatto...non credo che se il problema era questo, risolto immediatamente al boot ad una velocità tale che non sono neanche riuscito a leggerlo, abbia mandato in freeze il server, sbaglio? cosa ne pensate?

  4. #4
    Utente di HTML.it L'avatar di james
    Registrato dal
    Jun 2002
    Messaggi
    1,481
    ad esempio, in questo preciso istante, ho notato che i due HD in Raid 1 stavano lavorando fissi, e dal software di gestione della scheda 3ware noto che il Raid era degradato ed è in ricostruzione...ora le domande sono:
    [list=1][*]un HD è andato?[*]come faccio a capirlo? Volendo ora si allineano, ma io non ho capito xke uno dei due è rimasto indietro, tra l'altro se era completamente andato doveva entrare l'hot spare in gioco, invece il controller ha lasciato l'hot spare da parte ed ha iniziato la ricostruzione del mirroring.[*]Come faccio a capire se un HD è da sostituire? Tecnicamente se la ricostruzione (al momento è al 48%) termina bene...significa che l'HD non è guasto.[*]Come faccio a capire quale dei due HD del Raid 1 è rimasto indietro? Il software di gestione del controller non me lo dice, mi dice solo che il Raid set è in ricostruzione. Attraverso le informazioni S.M.A.R.T. lo si può dedurre? (non so neanche cosa siano)[/list=1]
    S.M.A.R.T. (Controller ID 0 - Port 0)
    0A 00 01 0F 00 6C 63 00 00 00 00 00 00 00 03 03
    00 5F 5F 00 00 00 00 00 00 00 04 32 00 64 64 0B
    00 00 00 00 00 00 05 33 00 64 64 00 00 00 00 00
    00 00 07 0F 00 51 3C 38 67 08 07 00 00 00 09 32
    00 63 63 AA 06 00 00 00 00 00 0A 13 00 64 64 00
    00 00 00 00 00 00 0C 32 00 64 64 0D 00 00 00 00
    00 00 BB 32 00 64 64 00 00 00 00 00 00 00 BD 3A
    00 64 64 00 00 00 00 00 00 00 BE 22 00 43 35 21
    00 19 21 00 00 00 C2 22 00 21 2F 21 00 00 00 19
    00 00 C3 1A 00 40 3A CA 46 CF 05 00 00 00 C5 12
    00 64 64 00 00 00 00 00 00 00 C6 10 00 64 64 00
    00 00 00 00 00 00 C7 3E 00 C8 C8 00 00 00 00 00
    00 00 C8 00 00 64 FD 00 00 00 00 00 00 00 CA 32
    00 64 FD 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 82 00 AE 01 00 5B
    03 00 01 00 01 5C 02 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 05 05 05 05 05 05 05 05 05 00
    00 00 00 00 00 00 00 01 68 C9 4B 1B 00 00 00 00
    00 00 DC 43 26 40 D5 00 00 00 00 00 00 00 00 00
    00 00 00 00 68 C9 4B 1B 00 00 00 00 00 00 00 00
    02 00 01 00 00 00 00 00 00 00 1B 75 5C 15 01 00
    00 00 50 A2 67 13 00 00 00 00 8B 05 00 00 00 00
    FE FF 01 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 84
    S.M.A.R.T. (Controller ID 0 - Port 1)
    0A 00 01 0F 00 6C 5C EA 17 31 01 00 00 00 03 03
    00 5F 5F 00 00 00 00 00 00 00 04 32 00 64 64 07
    00 00 00 00 00 00 05 33 00 64 64 00 00 00 00 00
    00 00 07 0F 00 52 3C F1 44 EB 0A 00 00 00 09 32
    00 61 61 82 0A 00 00 00 00 00 0A 13 00 64 64 00
    00 00 00 00 00 00 0C 32 00 64 64 09 00 00 00 00
    00 00 BB 32 00 64 64 00 00 00 00 00 00 00 BD 3A
    00 64 64 00 00 00 00 00 00 00 BE 22 00 44 33 20
    00 18 21 00 00 00 C2 22 00 20 31 20 00 00 00 18
    00 00 C3 1A 00 3C 3A 38 C4 25 00 00 00 00 C5 12
    00 64 64 00 00 00 00 00 00 00 C6 10 00 64 64 00
    00 00 00 00 00 00 C7 3E 00 C8 C8 00 00 00 00 00
    00 00 C8 00 00 64 FD 00 00 00 00 00 00 00 CA 32
    00 64 FD 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 82 00 AE 01 00 5B
    03 00 01 00 01 5C 02 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 01 05 05 05 05 05 05 05 05 00
    00 00 00 00 00 00 00 01 F5 4C 85 19 00 00 00 00
    00 00 A1 10 84 3D 50 01 00 00 00 00 00 00 00 00
    00 00 00 00 F5 4C 85 19 00 00 00 00 00 00 00 00
    02 00 01 00 00 00 00 00 00 00 5C 99 EF 39 01 00
    00 00 18 7D 39 04 00 00 00 00 5B 09 00 00 00 00
    22 24 00 00 00 00 00 00 00 00 00 00 00 00 00 00
    00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 43

  5. #5
    Utente di HTML.it L'avatar di james
    Registrato dal
    Jun 2002
    Messaggi
    1,481
    l'error-log del controller mi dice
    SELF TEST: port #0: SMART check passed;

    SELF TEST: port #1: SMART check passed;

    SELF TEST: port #2: SMART check passed;

    SELF TEST: SBuf step #0: preparation;

    SELF TEST: SBuf step #1: quick test disabled;

    SELF TEST: SBuf step #2: clean-up;

    SELF TEST: all tests completed.
    però poi, dopo un po'
    E=0204 I=00931B54 T=05:07:46 : Port timeout (ext)

    ata task file written out : cd dh ch cl sn sc ft

    : 25 40 92 6D 8F 70 00

    Send AEN (code, time): 0x9, 01/21/2008 05:07:46

    Drive timeout detected

    (EC:0x09, SK=0x04, ASC=0x00, ASCQ=0x00, SEV=01, Type=0x71)

    port=1

    ata task file read back : st dh ch cl sn sc er

    : 50 40 92 6D 8F 70 00

    E=0204 I=00931B54 T=05:07:46 P=1 : Soft reset drive

    ata task file read back : st dh ch cl sn sc er

    : 51 00 00 00 01 01 05

    ata task file read back : st dh ch cl sn sc er

    : 50 00 00 00 01 01 01

    E=0204 I=00931B54 T=05:07:46 P=1 : Hard reset drive

    ata task file read back : st dh ch cl sn sc er

    : 50 00 00 00 01 01 01

    E=0204 I=00931B54 T=05:07:46 P=1 : Unlock drive

    E=0204 I=00931B54 T=05:07:46 P=1 : Check power cycles, initial=8, current=8

    E=0204 I=00931B54 T=05:07:46 P=1 : Port retry not allowed

    E=0204 I=00931B54 T=05:07:46 P=1 : Prepare for command retry

    E=0204 I=009240E4 T=05:07:46 U=0 : Retrying command
    e via via errori così
    E=010C I=00924364 T=09:05:37 : Parameter index does not exist

    E=010C I=00924364 T=09:05:37 U=0 : Return error status to host

    Error, Unit 0: Parameter index does not exist

    (EC:0x10c, SK=0x05, ASC=0x26, ASCQ=0x00, SEV=01, Type=0x70)

    No additional sense data

    Error, Unit 64: Logical unit not present

    (EC:0x10a, SK=0x05, ASC=0x25, ASCQ=0x00, SEV=01, Type=0x70)

    unit=64

    Error, Unit 64: Logical unit not present

    (EC:0x10a, SK=0x05, ASC=0x25, ASCQ=0x00, SEV=01, Type=0x70)

    unit=64

    param : Table 0x0301, param 0x14, size 1
    ma in ogni caso non mi specifica se è un HD la causa o cosa, mai trovati in una situazione del genere? Cmq mi sembra ormai scontato che il problema è un HD, o il controller, o il FS, sicuramente non è RAM, o altri ciaffi, e comunque, se anche il Raidset è degradato, e uno dei due HD è andato a puxxane, anche se lo SMART control dice che sono ok, perchè tutto è andato in freeze?! Il controller di norma esclude l'HD guasto, lo sostituisce con l'hotspare e ricostruisce l'array, è già successo è ha funzionato, quindi il dubbio tremendo che ho è che ci siano problemi ad entrambi gli HD del raid set (ma mi sembra un caso troppo sfigato), o c'è qualcosa che sfugge o oltre alla mia semplice portata...

    Tra l'altro sempre il software del controller mi dice che c'è stato un "Unclean shutdown detected" e quindi ha iniziato la ricostruzione, da questo verrebbe da pensare che qualcosa ha mandato il freeze il server, io sono stato costretto al riavvio forzato e quindi alcuni dati non sono stati scritti su entrambi i dischi per via del freeze, freeze che però da cosa può dipendere??

    Ora il quadro dovrebbe esservi + chiaro rispetto all'inizio..

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.