Iniziamo:
1) Con Word faccio salva con nome e trasformo il mio .doc in .xml.
Ora il mio xml sarà così composto nei suoi tag principali:

a me interesanno sicuramente w:styles e w:body.

So che è impossibile con un pc stabilire cose come chi è l'autore, il relatore, e altre cose complesse.

Però io pensavo a questo.
2) Analizzando w:body troveremo il testo racchiuso fra tag w:t e lo stile dentro un tag <w:pStyles w: val="???"/>, al posto dei ??? avremo un nome che si rifà ad un preciso stile:
Abbiamo 2 casi
a) sotto w:pStyle vi è
<w:rPr>
<w:rFonts w:cs="Times New Roman"/>
<w:color w:val="000000"/>
<w:sz-cs w:val="24"/>
</w:rPr>
allora sappiamo già il font utilizzato e la dimensione e controlliamo vada bene.


b) sotto a w:pStyle non vi è nulla

allora
3) possiamo ricavarci la dimensione e il carattere che usa di default dallo stile analizzando il tag w:style sopra:


Noi sappiamo per esempio che il testo va scritto in Times New Roman 12 o 13 (che in xml risultano 24 e 26).

4) Da qui quindi ricaviamo implicitamente se se è Times New Roman 12 o 13 è corpo del testo.

5) Poi possiamo ricavarci i tag Introduzione e Bibliografia se in w:t questi sono singoli es se in w:t vi è Introduzione all'xml, non va bene....

6) Poi dobbiamo ricavarci i titoli che vanno sempre in Times New Roman (o anche Arial), ma devono essere grandi almeno 14.
E stabilire in base alla grandezza se vi sono 3 tipi di titolo, ma con varie dimensioni che il più grande UTILIZZATO è per il capitolo, il medio per il paragrafo e il più piccolo per il sottoparagrafo....

7) anche le figure dentro al tag w: pict abbiamo il nome della figura in <w: binData w:name="wordml://01000001.gif"> e quindi possiamo dire in che formato è (per sempio qui è gif)

Vi sembra possibile? A mano si riuscirebbe con un pò di impazzimento....