Salve,
da tempo ho scritto uno spider che funziona egregiamente. l'unico problema è che nel caso in cui lui provi a visitare una pagina molto pesante i tempi si allungano. esiste un modo per lo spider di leggere solo i primi 10 kb di una pagina per esempio? o cmq per velocizzare la cosa?
io uso questo sistema per il mio crawler:
$url = URI->new($sito[$iesterni]);
$response = $browser->get($url, @ns_headers);