Visualizzazione dei risultati da 1 a 10 su 10
  1. #1

    [C/C++]scraping pagina web con curl dopo aver caricato javascript

    Salve a tutti,
    questa è la prima discussione che apro e spero quindi di non aver sbagliato sezione.
    Sto cercando di realizzare in c un programma che raccolga in modo automatico da questo sito www.sportstats.com/soccer/italy/serie-a/inter-verona-UcNLlbb1/#odds i valori delle quote per poi fare delle analisi statistiche.
    Mi trovo però bloccato sulla raccolta dati:finora avevo pensato di usare curl per salvare il sorgente della pagina e poi analizzarlo ma ho tristemente scoperto che i valori non sono inclusi nel sorgente .
    Se però analizzo l'elemento con un broswer questo compare nel DOM.
    la mia domanda è quindi: come posso salvare in C le informazioni riportate nel DOM(cioè dopo aver eseguito gli script nella pagina)?Se non esistono librerie apposta qualcuno può suggerirmi qualcos'altro?

    Grazie in anticipo a chi mi vorrà dare un aiuto

  2. #2
    Utente di HTML.it
    Registrato dal
    Oct 2011
    Messaggi
    590
    sei convinto che usare c/c++ per una cosa del genere sia l'ideale?
    credo sia molto meglio fare scraping in un linguaggio web (php o jsp) soprattutto se hai questo particolare problema (che ho verificato esistere)

    mi sa comunque che 'semplicemente' non devi eseguire curl sulla pagina che vedi, ma sui vari script chiamati via ajax. Ad esempio
    http://www.sportstats.com/soccer/ita...Llbb1/?block=3
    Devi analizzare le richieste http.
    Ultima modifica di jimbo0; 20-11-2014 a 21:06

  3. #3
    Confermo che usare C++ o - peggio - C per fare scraping è sostanzialmente masochismo... un linguaggio di scripting è sicuramente più indicato.
    Amaro C++, il gusto pieno dell'undefined behavior.

  4. #4
    Si,avevo già fatto due o tre ricerche che sconsigliavano Il c++.Non è un obbligo è solo che lo conosco per motivi di studio e speravo di non dover cambiare linguaggio(anche se in extremis posso studiare un pò il php).
    Comunque la soluzione che hai proposto,Jinbo0,sembra poter andare bene,solo non ho capito come,nel sorgente della pagina,riconosco le richieste ajax e le seguo.
    Cioè come hai fatto,in pratica, a trovato il link che hai postato?

  5. #5
    Utente di HTML.it
    Registrato dal
    Oct 2011
    Messaggi
    590
    php è un linguaggio c-like, il passaggio non è per nulla traumatico, anzi, noterai con piacere che ci sono delle funzioni proprie del linguaggio che magari non saranno il massimo dell'efficienza, ma ti semplificano la vita di molto.
    Esempio: tu in C come leggi i file testuali? con una fopen e un ciclo sulle righe almeno, giusto? ecco, php ha file_get_contents()

    Per il tuo problema, come ho detto, devi studiare le richieste http, se usi chrome, studia la scheda network.

  6. #6
    Per fare scraping di una pagina generata tramite richieste AJAX ti serve un qualche linguaggio che si interfacci con un web browser vero e proprio; d'altra parte secondo me sarebbe ben più comodo andare a vedere quali sono le richieste che vengono effettivamente fatte (con gli strumenti di debugging di un browser qualunque) e poi riprodurre quelle.

    In ogni caso, tieni conto che al 99% quello che intendi fare non è consentito di termini d'uso del sito:
    Intellectual Property
    Without prior authorisation in writing from the Provider, Visitors are not authorised to copy, modify, tamper with, distribute, transmit, display, reproduce, transfer, upload, download or otherwise use or alter any of the content of the Website.

    Any breach of the aforementioned clause may be tantamount to a violation of applicable intellectual property rights within the European Union and other applicable laws. The Provider and any other party authorised on its behalf reserves the right to seek damages to the fullest extent permitted by law against any party committing directly or indirectly this breach.
    Amaro C++, il gusto pieno dell'undefined behavior.

  7. #7
    Si,per leggere i txt seguo proprio quei comandi lì.
    Mi avete convinto passo al php.
    Ok ho trovato le richieste nella pagina network.
    Grazie per l'inciso MItaly ,provvederò a contattare gli amministratori del sito

  8. #8
    Tengo a precisare che non ho consigliato né mai consiglierò PHP, a mio avviso uno dei peggiori linguaggi mainstream in circolazione. Dovendo fare una cosa del genere lavorerei in Python, ma più o meno qualunque altro linguaggio di scripting va bene.
    Amaro C++, il gusto pieno dell'undefined behavior.

  9. #9
    Utente di HTML.it
    Registrato dal
    Oct 2011
    Messaggi
    590
    Quote Originariamente inviata da MItaly Visualizza il messaggio
    Tengo a precisare che non ho consigliato né mai consiglierò PHP, a mio avviso uno dei peggiori linguaggi mainstream in circolazione. Dovendo fare una cosa del genere lavorerei in Python, ma più o meno qualunque altro linguaggio di scripting va bene.
    why so hate

  10. #10
    http://eev.ee/blog/2012/04/09/php-a-...of-bad-design/ (e non vado avanti perché sennò mi dovrei auto-punire per essere andato off-topic )
    Amaro C++, il gusto pieno dell'undefined behavior.

Tag per questa discussione

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.