il mio problema è effettivamente andare veloce, sulle 16 letture non ci sono dubbi che devono essere fatte, ma possono essere fatte in tanti modi diversi, es. accedendo ad ogni singola posizione attraverso l'uso delle parentesi, utilizzando un puntatore e incrementandolo di sizeof(elemento) ad ogni iterazione.
Sempre sulla lettura si hanno differenze abbissali solamente gestendo opportunamente la cache quindi abbolendo i cache miss.
fare in modo da avere i dati nella cache anzichè pescarli in memoria significa risparmiare circa 90 cicli di clock, in quando il tempo che il processore attende per ottenere un dato passa da 10 a 100 cicli di clock a seconda se il dato è in cache o in memoria.
Cmq vi ringrazio per l'aiuto e se avete idee postate.

Rispondi quotando