Ciao a tutti.
È da un pò che non lavoro più in PHP ma ora vorrei ricominciare ...
Stò creando un motore di ricerca in grado di indicizzare in un database tutti gli annunci immobiliari presenti su siti da me scelti.
L'idea era di quella di creare uno per ogni sito uno spyder apposito per l'indicizzazione dei annunci in esso presenti.
In sostanza lo spyder dovrebbe aprire una pagina definita ed estrarre i testo della descrizione e gli url di tutte le immagini, archiviarli in un database e presentarli agli utenti con un pulsante contatta che a sua volta rimanda al sito esterno.
Altra cosa importante è quella di criptare con delle X tutti i numeri di telefono facendo si che l'utente non possa chiamare direttamente dal mio sito.
Fino adesso ho creato il seguente script che funziona anche se non in modo perfetto il quale estrae solo il testo presente nella pagina indicizzata:
codice:
function html2txt($document){
$search = array('@<script [^>]*?>.*?</script>@si','@<style [^>]*?>.*?</style>@siU', '@< [?]php[^>].*?[?]>@si', '@< [?][^>].*?[?]>@si','@< [\/\!]*?[^<>]*?>@si','@< ![\s\S]*?--[ \t\n\r]*>@');$text = preg_replace($search, '', $document);
return $text;
}
$html_source = file_get_contents('http://www.sito/annuncio/paginaannuncio.htm');
$txt = strip_tags(html2txt($html_source));
Ora dovrei migliorare i seguenti punti:
1) Sostituire i numeri telefonici con delle X
2) Capire qual'è il titolo, quale l'annuncio e quale gli altri elementi del sito
3) Trovare gli URL di tutte le foto dell'annuncio