beh...credo che innanzi tutto devi avere in mente, strutturalmente, cosa devi fare...
quindi...
1° Acquisire la lista di pagine da leggere raggruppate per categoria
2° Ciclare le pagine contenute in ogni categoria
3° Acquisire la pagina HTML
4° Estrarre i dati che interessano
5° Ordinarli tramite appositi algorittimi
6° Inserirli nel database in modo strutturato
7° Tornare al passo 3 fino a quando tutte le pagine di uno specifico gruppo non sono state analizzate
8° Tornare al passo 2 fin quando tutti i gruppi non sono stati elaborati
a questo punto "lo spider" è completato
www.php.net/file
www.php.net/pcre
www.php.net/array
www.php.net/mysql
qui c'è tutto quello che ti serve olter alla sintassi base
PS: consiglio importante...devi mettere tutto in degli array e poi inserisci quando hai tutti i dati in modo che separi nettamente le tue parti e puoi inserire informazioni aggiuntive che estrai dall'insieme dei dati contenuti nei vari array![]()