Originariamente inviato da alcio74
Guarda, io una volta ho dovuto fare qualcosa di simile su commissione, per un sito di valutazioni su ristoranti, alberghi eccetera.
Il lavoro è davvero palloso, perché devi prima capire come ragiona il sito, poi fare lo scraping delle informazioni con espressioni regolari eccetera.
Ricordati sempre che queste pratiche sono al limite della legalità,
ma utilizzare software altrui quando che scarica completamente un sito, quando poi alla fine te lo puoi fare in casa senza stare a riempire un hard disk di pagine web, penso che sia la soluzione ideale.
Il procedimento che hai pensato credo sia valido, ma se non vuoi passare per uno scroccone di banda ti consiglio due cose: quando lanci lo spider, cerca di mascherare il tuo IP; utilizza un temporizzatore (con parametro variabile) per le interrogazioni, dimodoché per la stessa lettura una volta ci mette 3 secondi, un'altra 10... e sembra tutto più naturale!