Visualizzazione dei risultati da 1 a 7 su 7
  1. #1

    Estrarre dati da una pagina web

    Salve ragazzi,
    devo sviluppare un programma che estrae dei dati da vari siti internet, li inserisce in un database, e poi li pubblica citando la fonte, mi servono tutti i dati di ogni sito, sono circa 5, e non hanno rss, quindi devo estrarre le info dalle pagine.

    Ho calcolato che gli insert da fare sono circa 3.500.000, che metodo mi consigliate per estrarre( quali funzioni php ) i dati dalle pagine e come li inserireste sul db mysql?
    Jsoftware.it

  2. #2
    Di che tipo di dati parli? Sono porzioni di pagine o pagine intere?
    Quale mole e tipo di dati devi salvare?
    « Se nella prima mezz'ora non capisci chi è il pollo, allora il pollo sei tu. » [Thomas "Amarillo Slim" Preston, campione del mondo di poker]

  3. #3
    Originariamente inviato da king size slim
    Di che tipo di dati parli? Sono porzioni di pagine o pagine intere?
    Quale mole e tipo di dati devi salvare?
    Sono immobili prelevati da pagine immobiliari, mi servono per fare delle ricerche di mercato. Estraggo dati tipo titolo, descrizione, mq, locali, ecc ecc...
    Per prelevare i dati dalla pagina sto usando preg_match_all o in alcuni casi explode, taglio la pagina e mi prendo quello che serve, lo infilo in un array che poi inserisco nel db.
    Che ne pensi, c'è un modo più veloce per te?
    Jsoftware.it

  4. #4
    Direi di si, potresti, in alternativa usare le funzioni DOM di php (http://php.net/manual/en/class.domdocument.php) ma non credo ne guadagneresti in termini di prestazioni.

    Forse però a livello di codifica sarebbe più semplice... dipende anche da come è costruito l'html che devi parsare...
    « Se nella prima mezz'ora non capisci chi è il pollo, allora il pollo sei tu. » [Thomas "Amarillo Slim" Preston, campione del mondo di poker]

  5. #5
    Questo è un news empio di pagina
    http://www.immobiliare.it/36444270-V...-Piacenza.html
    Io so programmare in php, se tu dovresti fare un programma simile in che linguaggio lo faresti?
    Jsoftware.it

  6. #6
    io conosco solamente PHP bene quindi lo farei con quello...
    « Se nella prima mezz'ora non capisci chi è il pollo, allora il pollo sei tu. » [Thomas "Amarillo Slim" Preston, campione del mondo di poker]

  7. #7
    Potresti utilizzare la funzione file_get_contents che restituisce l'intero sorgente della pagina ed estrapolare i pezzetti che ti servono, magari utilizzando un explode

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.