Noi = 'io e il mio socio' abbiamo realizzato lo spider per vari progetti:
1) per cercare pezzi di testo (leggisi email) nel web
2) per indicizzare dei siti interi partendo da un url inserito all'inizio. In pratica lo spider girerebbe all'infinito perchè trova i link, naviga e memorizza.
Quello che abbiamo realizzato noi indicizza i siti e fa la cache, proprio come Google, evidenziando la ricerca con l'evidenziatore.
La consultazione dei risultati attualmente avviene sempre tramite il programma (perché ci serviva così) ma nulla vieta di interrogare il db creato attraverso il web.
E' stato realizzato in Vb quindi no multi-thread e perciò le prestazioni sono migliorabili.
Però per obiettivi medi va benissimo, certo se vuoi indicizzare l'intero web come Google allora ne devi lanciare a decine su computer diversi...
Open source?
Ciao