Odio quando devo cercare su un dizionario
Piu' o menoAbbiamo avuto alcuni problemi tra ieri ed oggi ma adesso sembra tutto OK.
Un po' di contesto (che avevo dimenticato): praticamente abbiamo migrato dei servizi di licensing da un data centre all'altro; questi servizi di licensing sono utilizzati per a) fare collection di una marea di data da clouds e la nostra federated CDN, b) validare in tempo reale le licenze delle clouds a seconda delle risorse usate. C'e' una connessione persistente tra ogni cloud e una instance del licensing, e se qualcosa va storto e il licensing e' down, delle cloud potrebbero venire bloccate, motivo per cui uptime e' critico. Il maggior problema che abbiamo avuto e' stato causato a sua volta da un problema nella propagazione di alcune zone dal nostro anycast DNS, che ha fatto si' che delle clouds (non molte cmq, circa 400) non potessero connettersi alle nuove instances del licensing. Il downtime ha riguardato alcuni paesi in Asia pero' e' stato contenuto nelle dimensioni e nel tempo perche' e' stato risolto presto. Quindi il mondo e' salvo
Altri problemi che abbiamo avuto nell'intermezzo: 1. collection di CDN data era stata interrotta per circa 3 ore, a sua volte causando problemi a siti che usano CDN; 2. abbiamo avuto qualche problema nell'aggiornamento di circa 1k servers per la vulnerabilita' Heartbleed. Fortunatamente usiamo Chef ed e' stato veloce risolverlo.



Rispondi quotando

)



