Sono alla ricerca di codice che consenta di analizzare una pagina HTML con dei contenuti, ripulire le informazioni inutili e tenere solo titolo e testo; esempio, partendo da repubblicat.it, archiviare in un DB solo gli articoli e dimenticarsi il resto... secondo voi esistono prodotti open source di questo tipo?
Grazie