Salve
segnalo a tutti il rilascio del codice del web crawler di Archive.org sotto licenza LGPL.
Tutti possono vedere il sorgente e modificarlo, anche per le proprie applicazioni.
http://crawler.archive.org/
Il crawler è scritto in Java e testato in primis su Linux ma dovrebbe andare anche su Mac e Windows.
Spesso si legge di persone che vorrebbero scrivere il loro crawler, questo potrebbe essere un buono spunto di partenza.