...forse: intanto devi decidere come "logicamente" estrarre i contenuti: in linea di massima è molto più immediato se "studi" il singolo sito e vedi come è organizzato il codice... potresti p.es. vedere che ogni notizia a un tag div con classe "titolo" e un altro con classe "articolo" o roba del genere... a questo punto si passa all'azione. Se si può filtrare la pagina HTML per estrarre i contenuti puoi usare una classe che "parsi" l'html e recuperare le parti utili.
Come spiego spesso per casi del genere: prova a ragionare come faresti per procedere "manualmente" alla stessa operazione... cosa faresti?