Ciao a tutti
Ho nel database una tabella con una lista di file che rispondono a indirizzi remoti. Per ognuno di questi, devo eseguire due operazioni: parsing del file, e inserimento di nuovi dati ottenuti tramite parsing nel database.
Non ho particolari problemi ad eseguire queste due operazioni: ho già creato uno scriptino al cui richiamo viene eseguito un ciclo del db, l'estrazione gli url, il parsing e l'inserimento nel db.
PROBLEMA: gli url sono meno di una ventina, e lo script ci mette 20-25 secondi in media.
Penso che succeda perchè, essendo ogni elemento un file remoto, c'è di mezzo il tempo di risposta e financo il possibile timeout (30 secondi) - per ogni file.
Nell'idea finale, questo sarebbe uno script da richiamarsi tramite CRON JOB a intervalli regolari ma abbastanza stretti (nell'ordine dei 2-5 minuti al massimo, per capirci), e dovrebbe parsare centinaia di migliaia (forse anche milioni) di URL.
Ovviamente, a lasciarlo così com'è, ci metterebbe una eternità. Voi come fareste per creare un robottino che sia in grado di scandagliare migliaia di file remoti senza andare in time-out?
Avevo pensato all'idea di spezzettarlo: ovvero prendi 10-15 record dal db e per ogni "tranche" esegui il ciclo, il parsing e l'inserimento. Questo mi permetterebbe un grande incremento di velocità, ma non ho idea di quali siano le controindicazioni.
Insomma, sono un po' in alto mare.... mi date una mano nella progettazione di questo robot?
Grazie