Potresti eliminare dalla ricerca tutti i token inferiori a quattro caratteri, credo che taglieresti fuori un bel po' di parole dal significato insulso (articoli, congiunzioni, ecc..), non è sicuramente la soluzione perfetta ma è un buon compromesso fra risultato e facilità di implementazione.