Originariamente inviato da alcio74
Informandomi se il sito che voglio controllare esponga delle API.
Purtroppo no ... Gran parte dei siti in questione sono di piccole dimensioni e non utilizzano neanche un db, men che meno una struttura con delle API grazie Cmq

Ho iniziato una piccola analisi logica...

In genere gran parte dei siti in questione hanno una struttura simile. Ovvero ogni immobile è contenuto in una singola pagina ...

Es

www.sitoimmobiliare.com/codiceimmobile.html

Oppure

www.sitoimmobiliare.com/immobili.php?id=xxxx

Quindi dovrei creare uno spider personalizzato per ogni singolo sito, ovviamente gran parte del codice lo potrei utilizzare per tutti i spider evitando di doverlo riscrivere. Magari potrebbe essere la mia occasione per approfondire la programmazione ad oggetti...

In sintesi lo spider apre la home del sito. Estrae tutti i collegamenti dalla home ed esamina a cascata quali sono relativi ad immobili e quali a fornire altre info es. Pagina di contatto, servizi ecc. Se invece il sito contiene un motore Tramite lo spider invio dei parametri standard di ricerca e faccio lo stesso lavoro della soluzione precedente.

Ancora meglio se ogni singolo annuncio dovesse avere un id numerico o alfanumerico. In tal caso proverei in automatico ogni singola possibilità incrementando +1.

Alternativa ... Si potrebbe prendere spunto dai software tipo DownThemAll che scaricano tutti i documenti da un singolo sito. Essi rilevano ogni singola pagina contenuta su un sito mediante dei descrittori batch ( es. myimmobile[1:1000][A:Z]) tuttavia in tal caso non saprei come cominciare e non so se il tutto sarebbe troppo lento o se potrebbe essere interpretato come un attacco al server.