Originariamente inviato da andrea.paiola
quanti sono sti siti? comunque in linea generale metterei la lista su db e poi passo tot siti per volta allo script tramite cron
Non ho un'elenco di siti da esplorare, più che altro farei partire lo spider da qualche sito importante che tratti la provincia o la regione, e poi gli farei esplorare anche tutti i link esterni. Ma diciamo pure che in fase di pre-creazione del Crawler deciderò con esattezza il comportamento che dovrà avere per ridurre al minimo i siti da esplorare e per ottenere dei buoni risultati senza, diciamo troppo sforzo computazionale!