Secondo me invece non penalizza il doc e l'html, ma solo due pagine perfettamente identiche. Cioè con stessi contenuti ma anche con link in uscita identici.
Sto facendo degli esperimenti creando delle pagine molto simili che differiscono solo per una decina di parole su 300 che sono online da qualche mese e non mi pare sia stata penalizzata alcuna pagina...