Salve

segnalo a tutti il rilascio del codice del web crawler di Archive.org sotto licenza LGPL.

Tutti possono vedere il sorgente e modificarlo, anche per le proprie applicazioni.

http://crawler.archive.org/

Il crawler è scritto in Java e testato in primis su Linux ma dovrebbe andare anche su Mac e Windows.

Spesso si legge di persone che vorrebbero scrivere il loro crawler, questo potrebbe essere un buono spunto di partenza.