Perchè non utilizzi delle tecniche di stemming?

In questo modo puoi ridurre il numero di parole "uniche" ed eventualmente aggirare il problema delle stop words.