Non credo si possa velocizzare questo codice.
Del resto l'algoritmo e' molto semplice e quindi non penso ce ne possa essere un altro alternativo.
Hai due strade ...
1) lo fai in assembler
2) intervieni sull'hardware
La prima strada, dato che i compilatori C/C++ moderni riescono ad ottimizzare il codice (per velocita' maggiore) in maniera molto efficiente, non mi sembra ti possa portare molto avanti ... Puoi esaminare il codice assembler prodotto dal compilatore (c'e' una opzione per generare il listato assembler corrispondente ...) e vedere cosa si puo' fare ... ma non credo tantissimo ...
La seconda strada ... beh ... su quella non c'e' molto da dire ...