Salve sto utilizzando la libreria secondstring che contiene una serie di algoritmi per trovare la similirarità tra stringhe. Il problema è che tra tutti questi algoritmi non so quale è quello adatto alle mie esigenza. In particolare ho l'esigenza di confrontare migliaia di stringhe tra di loro e trovare quelle che si refiriscono allo stesso concetto...

Un esempio è il confrontro tra le seguenti stringhe che si riferiscono allo stesso concetto...

1. Conference of the American Association for Artificial Intelligence
2. AAAI - NATIONAL CONF. ON ARTIFICIAL INTELLIGENCE
3. AAAI National Conference of the American Association for Artificial Intelligence
4. National Conference on Artificial Intelligence

Oltre a queste stringhe potrei avere in questa lista altre stringhe che si riferiscono allo stesso concetto ma che non posso trovare a mano visto che le stringhe sono tantissime.
In altre parole avendo una lista di stringhe di questo tipo devo trovare ed unificare le stringhe che si riferiscono allo stesso concetto. Una possibilità a cui ho pensato è analizzare le prime lettere della stringa in quanto nella maggior parte dei casi due stringhe che iniziano con le stesse iniziali si riferiscono allo stesso concetto (Es. AAAI - NATIONAL CONF..... e AAAI Nationa.....).

Qualcuno ha qualche idea??