L'esempio che hai postato direi che è abbastanza completo, utilizza JTidy per ripulire la pagina da caratteri e o tag sporchi, dopo di che utlizza xpath per ottenere i tag e o il testo che gli interessa.
Cos'è che non ti è chiaro ?