ciao a tutti, come prima cosa vorrei porre i miei saluti alla community come mio primo post.
poi passerei alla domanda
sto cercando di scrivere un web crawler in java, e sto utilizzando il package WebSphinx.
Mi servirebbe un modo per estrarre del testo da delle pagine html, io non voglio estrarre tutta la pagina ma solo parti dell'intera pagina. L'estrazione va fatta da siti differenti, quindi con diverse formattazioni anche se gli argomenti trattati dai vari siti sono gli stessi ma presentati in varie forme.
potete consigliarmi qualcosa, avete un modo per risolvere questo problema?

devo dire inoltre che sono alle prime armi con java perciò spero che qualcuno più esperto di me mi possa guidare attraverso qualche preziosa informazione.