io di solito riscrivo il documento, oppure annullo tutta la formattazione (copia-incolla su blocconote) e poi porto tutto nell'editor, rimetto formattazione, " eccettera...
Pulire il codice html di word è una bella impresa, anche se dipende da come era il documento originario...

comumque trovi molti html e xhtml cleaner anche sull'area download di html.it...

quella roba li è una specie di definizioni xml per quelli che vengono dopo, che sono tag proprietari.

io gli ho solo dato un'occhiata, ma se vuoi:
Ripulire l'html di word
ti può dare una mano...