Algoritmi di similarità tra stringhe

Salve amici del forum,

Sto per mettermi a lavorare ad un piccolo software che all'interno di un DB di circa 70.000 record di Nominativi e Data di nascita abbia la capacità di individuare i possibili Nominativi Duplicati (e fin qui niente da dire).

Il software però deve avere anche la capacità di individuare i possibili nominativi simili (ad esempio per errori di battitura).

Ho pensato di utilizzare l'algoritmo di Jaro-Winkler per risolvere il problema. Ma...

Il fatto è che non posso confrontare 70.000 stringhe tra di loro per ovvi motivi di prestazioni. Quindi vorrei implementare una variante che assegni e memorizzi per ogni nominativo un VALORE DI SIMILARITA' con una stringa FISSA: (ad es. AAAAAAAAAAAAAAAAA)

Questo dovrebbe permettermi di individuare rapidamente I possibili nominativi più simili tra di loro. Poi eseguire Jaro-Winkler solo a questa piccola porzione di nominativi per beccare i possibili Duplicati con errori di ortografia.

Voi avete qualche soluzione già codificata e testata migliore? Avete porzioni di codice da testare?

Grazie!

Discussione: Algoritmi di similarità tra stringhe

Strumenti discussione

Ricerca discussione

Visualizza

Visualizzazione discussione

Algoritmi di similarità tra stringhe

Tag per questa discussione

Permessi di invio