Se conosci Java perché complicarti la vita usando un linguaggio che non conosci? In ogni caso, ciò di cui hai bisogno è un parser HTML; molti in Java usano TagSoup (parser SAX) o jsoup (parser DOM più altre features, forse più comodo per i tuoi fini), dato che sono in grado di gestire più o meno correttamente le tonnellate di HTML "malscritto" che si trova nel "mondo vero" del web.

Se mi confermi che vuoi proseguire in Java ti sposto nell'apposita sezione, altrimenti dimmi che linguaggio vuoi usare che lo aggiungo al titolo come tag (come da regolamento).