Stando a quanto mi è stato spiegato, esistono delle tecniche di unrolling (diminuire il numero di cicli dei loop), oppure si può cercare di sfruttare i registri invece di accedere sempre alla memoria. Ho provato ma non ho raggiunto grandi risultati, ho velocizzato di 1,1 - 1,2.
comunque grazie lo stesso