HTML è un formato di markup.
PDF è un formato binario proprietario di Adobe.
DOC è un formato binario proprierario di Microsoft
RTF è un altro formato di markup.

Senza conoscere con esattezza il formato del documento non vai da nessuna parte.


Ciao.