puoi usare uno di questi... ti do un po' di link

http://tidy.sourceforge.net/
http://www.egenix.com/files/python/mxTidy.html
http://www.w3.org/People/Raggett/tidy/
http://infohound.net/tidy/

qualora volessi usare Plone la vita sarebbe più semplice in quanto ha dei metodi apposta per la pulizia dell'HTML.

Bala