Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 12
  1. #1

    estrapola dati da pagine web

    Salve a tutti, spero di non aver sbagliato sezione e che possiate aiutarmi perchè non sò propio da dove iniziare.
    Vorrei poter accedere ad un sito web e recuperare i dati presenti in varie tabelle, e ricopiare i dati su file di testo o se possibile su excel.
    Preciso che tale sito web è protetto da username e password, pertanto prima di visualizzare le tabelle che mi interessano, dovrei autenticarmi.
    Spero possiate aiutarmi.
    Ho letto e riletto tutto quello già presente qui sul forum ma vorrei capire meglio cosa dovrei studiare per affrontare questo tipo di problema.
    Grazie

  2. #2
    Ciao.
    Il sito da cui vuoi estrapolare i dati non è tuo, vero? Non hai accesso diretto ai file?

  3. #3
    No, il sito non è mio,
    sono un utente registrato con usernamee password, i dati visualizzati riguardano mie pratiche

  4. #4
    Utente di HTML.it
    Registrato dal
    Apr 2004
    Messaggi
    3,709
    in linea di massima potrebbe essere possibile una struttura per uno script php di questo tipo:

    1. ti autentichi
    2. richiami l'url della pagina da parsare
    3. analizzi il codice e estrai i dati

    il primo problema da verificare è il primo, perchè bisogna essere sicuri di come avviene l'autenticazione e se si riesce a fare tramite uno script... intanto verifica questo:

    - c'è una "normale" pagina di login con un form dove mettere username e password?
    - se sì: i dati sono passati in POST?
    - la pagina dove vai dopo il login è la stessa del form (stessa url) o diversa?

  5. #5
    Grazie intanto per l'aiuto,
    rispondendo alle tue tue domande:

    l'autenticazione avviene mediante form ed i dati vengono passati in POST,
    dal sorgente della pagina si capisce che il reindirizzamento, dopo l'invio di username e password, non avviene alla pagina dei risultati, ma i dati vengono inviati ad un'altra pagina che a sua volta reindirizza a quella dove sono presenti i dati.

  6. #6
    Utente di HTML.it
    Registrato dal
    Apr 2004
    Messaggi
    3,709
    per l'autenticazione puoi intanto tentare con questo script preso da un archivio e modificato:

    Codice PHP:
    $ch curl_init();
    curl_setopt($chCURLOPT_URL'http://...indirizzo form login...');
    curl_setopt ($chCURLOPT_POST1);
    curl_setopt ($chCURLOPT_POSTFIELDS'username=...&password=...'); // qui metti i nomi dei campi del form
    curl_setopt ($chCURLOPT_COOKIEJAR'cookie.txt');
    curl_setopt ($chCURLOPT_RETURNTRANSFER1);
    $store curl_exec ($ch);
    curl_setopt($chCURLOPT_URL'http://...indirizzo url con i dati...');
    $content curl_exec ($ch); curl_close ($ch); 
    i nomi dei campi del form li puoi ricavare visualizzando il sorgente della pagina con il form di login, mentre per vedere cosa ricavi (se tutto funziona) puoi aggiungere un var_export($content); in coda al codice

  7. #7
    ok problema autenticazione riuscito,
    ora mi trovo davanti il link
    www.miosito.it?fisc=12345&pag=1
    caon la mia tabella ed i miei dati;
    la parte di codice che non riesco a creare, dovrebbe prendere i dati dalla tabella 1 e copiarmeli su di un file di testo o excel, una volta finita la prima copia deve passare alla seconda tabella che si trova all' indirizzo:
    www.miosito.it?fisc=12345&pag=2
    e così via
    www.miosito.it?fisc=12345&pag=3
    www.miosito.it?fisc=12345&pag=4
    ....

  8. #8
    Utente di HTML.it
    Registrato dal
    Apr 2004
    Messaggi
    3,709
    Originariamente inviato da michaelvismart
    ok problema autenticazione riuscito,
    ....
    più entusiasmo, su! Di solito non va al primo colpo... una cosa così poi...

    per il resto dipende da come sono fatte le pagine... può darsi che devi usare le espressioni regolari o altro... dipende appunto dalle pagine...

    per recuperare le pagine puoi fare una cosa tipo:

    Codice PHP:
    $pagine = array();
    for (
    $i=1$i<=$ultimapag$i++) { // $ultimapag è appunto l'ultima pagina (es.: 10)
    curl_setopt($chCURLOPT_URL'http://...indirizzo url con i dati...');
    $content curl_exec ($ch);
    $pagine[] = $content;
    }; 
    in questo modo nell'array $pagine hai i codici sorgenti da parsare

  9. #9
    eeee qui inizia la problematica purtroppo non so come effettuare il parsing....

  10. #10
    Utente di HTML.it
    Registrato dal
    Apr 2004
    Messaggi
    3,709
    ..però non penso ti si riesca a dare suggerimenti senza vedere il codice o sapere com'è fatto (es.: una tabella o altro)...

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.