se la matrice è densa, ma veramente grande, ed hai una macchina multicore, puoi fare più thread.
bisogna far attenzione però sia alla sincronizzazione, sia al partizionare opportunamente l'area di memoria per evitare races