Il problema è il seguente:

Leggo e importo nel DB il contenuto HTML di alcune pagine web e tutto funziona

Poi genero un export XML ed anche qui tutto ok

Quindi vado a leggere l'XML che ho scritto e mi restituisce un errore:
Errore interpretazione XML: non well-formed

il file incriminato è questo FILE

Credo che l'errore sia dovuto al fatto che la pagina HTML importata sia stata editata con MS Word.

Ma come risolvo il problema? Questi XML mi bloccano l'esecuzione degli script

Vorrei capire se esiste una funziona PHP che elimina tutti i caratteri con codifica non presente nell' UTF-8