Ciao,
JSoup per scandire le pagine HTML
Apache POI per aprire i doc, docx e mi sembra anche RTF (puoi guardare nella documentazione)
iText per aprire e lavorare sui PDF.
L'unico di cui ho il dubbio è iText perché io l'ho usato più che altro per scrittura.
La lettura da un PDF è abbastanza ostica se il documento non è ben formato.