RSS e rimozione termini ripetuti

Salve, sto cercando di realizzare un sistema in PHP o in java capace di valutare i termini rilevanti di un blog.
La base del software è molto semplice, quotidianamente scarica i nuovi post, si esplode i singoli termini, si sottraggono termini ripetuti (articoli, congiunzioni etc.. etc..) ma poi come faccio a dire il sistema di non valutare termini che si ripetono in eventuali intestazioni o piè di pagina ripetuti nelle varie pagine?

ad esempio: http://feeds.feedburner.com/musicadalpianetaterra/YoRM
In questo rss viene ripetuto il termine "Track" "List" alla fine di ogni articolo ma effettivamente non sono rilevanti, sono ripetuti per una questione di impaginazione del blog.

Avevo penso di identificare i termini che fanno spam con le distanze da inizio e fine testo ma cambiano notevolmente.
Ho pensato di eliminare termini ripetuti in ogni pagina ma se poi capita di analizzare un blog molto tematico, e quindi con un termine molto ripetuto, lo va a vedere come spam anzichè manternere il termine come rilevante.

Siete a conoscienza di progetti che trattano di queste tematiche? ho difficoltà nel trovarli su google.

Grazie!

Discussione: RSS e rimozione termini ripetuti

Strumenti discussione

Ricerca discussione

Visualizza

RSS e rimozione termini ripetuti

Permessi di invio