Visualizzazione dei risultati da 1 a 5 su 5
  1. #1
    Utente di HTML.it
    Registrato dal
    Jun 2003
    Messaggi
    4,826

    crawler php , legale? e problema simbolo euro

    vi dico subito quello che sto facendo cosi mi dite se è legale o meno.
    Sto utilizzando un crawler per reperire dei prezzi e immagini da negozi tipo mediaworld .
    è legale?
    non li uso pero' per pubblicarli ma per catalogare dei prezzi e vederne il cambiamento nel tempo.

    Se è legale continuo:
    c'è un problema con il simbolo dell euro che compare nella pagina html renderizzata dal browser ma non nel sorgente della pagina, perchè?
    cosi non riesco a leggere molti prezzi che hanno questo simbolo davanti.
    Si puo risolvere in qualche modo con codifiche di caratteri e cose simili o non è possibile.
    Come crowler uso goutte di symfony 2 in php.
    Il crowler è come se leggesse la pagina sorgente, quella che si vede con ->sorgente pagina per intenderci, con firefox e nel sorgente , ho provato con 2 o 3 siti non si vede e non capisco.

  2. #2

    Re: crawler php , legale? e problema simbolo euro

    Originariamente inviato da giuseppe500
    vi dico subito quello che sto facendo cosi mi dite se è legale o meno.
    Sto utilizzando un crawler per reperire dei prezzi e immagini da negozi tipo mediaworld .
    è legale?
    non li uso pero' per pubblicarli ma per catalogare dei prezzi e vederne il cambiamento nel tempo.

    Se è legale continuo:
    c'è un problema con il simbolo dell euro che compare nella pagina html renderizzata dal browser ma non nel sorgente della pagina, perchè?
    cosi non riesco a leggere molti prezzi che hanno questo simbolo davanti.
    Si puo risolvere in qualche modo con codifiche di caratteri e cose simili o non è possibile.
    Come crowler uso goutte di symfony 2 in php.
    Il crowler è come se leggesse la pagina sorgente, quella che si vede con ->sorgente pagina per intenderci, con firefox e nel sorgente , ho provato con 2 o 3 siti non si vede e non capisco.
    magari vengono formattati con del javascript e quindi nel sorgente non c'è, li aggiunge dopo javascript. a meno che nel sorgente non trovi qualcosa di simile:

    If you use the euro sign, the correct numeric reference is & # 8 3 6 4 ; and the correct entity reference is & e u r o ;.
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  3. #3
    Utente di HTML.it
    Registrato dal
    Jun 2003
    Messaggi
    4,826
    si , Santino83_02 hai proprio ragione, i dati che non vedo sono inseriti dal javascript , infatti se disabilito il javascript nel browser non appaiono.
    Come posso risolvere?
    con le librerie curl? o come?
    posso aspettare che la pagina sia caricata completamente e poi leggerla?
    su google ho cercato ma sembra di no, almeno con curl.

  4. #4
    Utente di HTML.it L'avatar di Electro
    Registrato dal
    Dec 2003
    Messaggi
    565
    Originariamente inviato da giuseppe500
    si , Santino83_02 hai proprio ragione, i dati che non vedo sono inseriti dal javascript , infatti se disabilito il javascript nel browser non appaiono.
    Come posso risolvere?
    con le librerie curl? o come?
    posso aspettare che la pagina sia caricata completamente e poi leggerla?
    su google ho cercato ma sembra di no, almeno con curl.
    Non credo potrai mai farlo con php, perchè l'unica soluzione è eseguire il codice javascript sulla pagina. Perciò dovresti usare qualche browser headless con api, come phantomJs... il quale ti esegue la pagina, e poi tramite api puoi estrarre i dati che ti servono.
    Nulla

  5. #5
    Utente di HTML.it
    Registrato dal
    Jun 2003
    Messaggi
    4,826
    si, hai proprio ragione, sto provando con questo:
    http://docs.behat.org/cookbook/bdd_i..._zombiejs.html

    ciao , grazie

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.