Diminuire il numero di cicli credo che porti ad una incompleta rotazione dell'immagine.

L'array sta in memoria e quindi devi per forza accedervi ...

Quello che puoi mettere nei registri sono i due contatori i e j.
In genere lo fa lo stesso compilatore perche' previsto dal suo ottimizzatore.

Ti ripeto ... dai un'occhiata al codice assembler generato e poi ne riparliamo ...