Se ho ben capito la documentazione, dovresti trovare prima tutti i valori di Y (1 byte per pixel di valore di Y), poi tutti i valori di U e quindi quelli di V, ma ciascuno relativo ad un'immagine di lato dimezzato rispetto all'originale.
Teoricamente quindi dovrebbero essere:
320*240 + 160*120 + 160*120 = 115200
Tuttavia se, come dici, il file è da 153600 byte, sembrerebbe invece che vengano utilizzati 16 bit per pixel; sicuro che non si tratti di YUV422/YUY2 o roba del genere? In tal caso tutto sarebbe più semplice, visto che i dati dei pixel sono uno in fila all'altro, come sequenze di [Y1 U Y2 V], da interpretarsi come due pixel [Y1 U V], [Y2 U V].