beh...credo che innanzi tutto devi avere in mente, strutturalmente, cosa devi fare...

quindi...
1° Acquisire la lista di pagine da leggere raggruppate per categoria
2° Ciclare le pagine contenute in ogni categoria
3° Acquisire la pagina HTML
4° Estrarre i dati che interessano
5° Ordinarli tramite appositi algorittimi
6° Inserirli nel database in modo strutturato
7° Tornare al passo 3 fino a quando tutte le pagine di uno specifico gruppo non sono state analizzate
8° Tornare al passo 2 fin quando tutti i gruppi non sono stati elaborati

a questo punto "lo spider" è completato

www.php.net/file
www.php.net/pcre
www.php.net/array
www.php.net/mysql

qui c'è tutto quello che ti serve olter alla sintassi base

PS: consiglio importante...devi mettere tutto in degli array e poi inserisci quando hai tutti i dati in modo che separi nettamente le tue parti e puoi inserire informazioni aggiuntive che estrai dall'insieme dei dati contenuti nei vari array