Salve amici del forum,
Sto per mettermi a lavorare ad un piccolo software che all'interno di un DB di circa 70.000 record di Nominativi e Data di nascita abbia la capacità di individuare i possibili Nominativi Duplicati (e fin qui niente da dire).
Il software però deve avere anche la capacità di individuare i possibili nominativi simili (ad esempio per errori di battitura).
Ho pensato di utilizzare l'algoritmo di Jaro-Winkler per risolvere il problema. Ma...
Il fatto è che non posso confrontare 70.000 stringhe tra di loro per ovvi motivi di prestazioni. Quindi vorrei implementare una variante che assegni e memorizzi per ogni nominativo un VALORE DI SIMILARITA' con una stringa FISSA: (ad es. AAAAAAAAAAAAAAAAA)
Questo dovrebbe permettermi di individuare rapidamente I possibili nominativi più simili tra di loro. Poi eseguire Jaro-Winkler solo a questa piccola porzione di nominativi per beccare i possibili Duplicati con errori di ortografia.
Voi avete qualche soluzione già codificata e testata migliore? Avete porzioni di codice da testare?
Grazie!