Come reperire esclusivamente testo da pagine html?

Ciao a tutti!
Ho un problemone da risolvere per una applicazione che devo realizzare e spero qualcuno possa suggerirmi un modo efficace di trattarlo:
ho bisogno di estrarre in modo automatico, per mezzo di codice scritto in java, il testo completo di notizie presenti in pagine html presenti su varie riviste online(repubblica.it,messagero.it, ansa.it...) ; tramite i formati di syndacation RSS, dispongo dell'indirizzo di link alle singole pagine dove le notizie e il relativo testo completo sono presenti, ma il vero problema è che ogni rivista online tratta nella formattazione html delle pagine il testo della notizia con regole interne, e non in modo standard con particolari tag standardizzati, quindi non so proprio come poter fare a venire incontro all'esigenza di prelevare in modo automatico il solo testo della notizia, privo di altri campi presenti nell'html quali link, immagini, form ed altre cose diverse dal semplice testo della notizia, e dovrei poterlo fare in 1 modo che vada bene per tutte le diverse riviste online.
Se qualcuno ha qualche dritta da darmi eviterei di continuare a sbattere la testa contro un muro,eheh
grazie tante!Marco

[edit] Tralasciamo l'inglese... è un forum Italiano [/edit]

Discussione: Come reperire esclusivamente testo da pagine html?

Strumenti discussione

Ricerca discussione

Visualizza

Hybrid View

Come reperire esclusivamente testo da pagine html?

Permessi di invio