Salve a tutti,
utilizzo una piccola funzione che misura la densità di termini all'interno di una stringa ed estrae un elenco dei 10/15 terminini più usati, che ovviamente poi uso per automatizzare delle procedure di tagging e topicità.
il limite di questa funzione sta nel fatto (al di là dei problemi di stemming che per il momento non voglio neanche affrontare) che considera anche avverbi, prononi (cmq + lunghi di 4 caratteri) e aggettivi e termini di uso troppo comune (anche, troppo, bello, principali, questo etc...) che non hanno una reale rilevanza ai fini della determinazione dell'insieme di termini topici.
ho quindi aggiunto un array alla funzione che contiene un elenco di termini da escludere perentoriamente in fase di determinazione dell'elenco stesso, il punto è che questo elenco è non solo molto parziale e incompleto, ma di difficile completamento data la vastità di possibili termini a basso indice di rilevanza.
Ho cercato un elenco testo, ASCII o interno magari a mysql, ma ho trovato solo indicazioni inutilizzabili per me per msql 2005...
qualcuno conosce una possibile sorgente per questo tipo di elenco?
ringrazio per ogni tipo di aiuto
un saluto al forum
m