Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 13
  1. #1

    Come fanno i Crawler a girare senza una visita che li faccia partire?

    Ciao a tutti,

    vorrei capire come fa un Crawler in php a fare il suo giro per siti senza essere chiamato da un browser!

    se impostassi la set_time_limit (0); lo script si interromepebbe comunque quando chiudo il browser giusto? Allora come si fa acreare un script php che giri indipendente dalle visite?

    Grazie
    Valerio

  2. #2

    Re: Come fanno i Crawler a girare senza una visita che li faccia partire?

    Originariamente inviato da skateman
    Ciao a tutti,

    vorrei capire come fa un Crawler in php a fare il suo giro per siti senza essere chiamato da un browser!

    se impostassi la set_time_limit (0); lo script si interromepebbe comunque quando chiudo il browser giusto? Allora come si fa acreare un script php che giri indipendente dalle visite?

    Grazie
    Valerio

    o PHP_CLI (cerca)
    o ingore_user_abort (cerca) [sconsigliato per il tuo uso]

  3. #3
    beh andrebbe bene anche un comunissimo cron

  4. #4
    Ho trovato nel manuale la ingore_user_abort() che dice xnavigator ma non la PHP_CLI, ne la cron!

    Potreste spiegarmi meglio queste ultime due?

    Visto che ci sono vi spiego quello che vorrei fare, non è niente di particolarmente pretenzioso direi, voglio creare un crawler che cerca (diciamo nelle sole homepage dei vari domini da qui passa) i link ai feed rss, poi indicizza le news che contengano nei titoli parole chiave riguardanti la provincia di Messina.

  5. #5
    Visto che ci sono vi spiego quello che vorrei fare, non è niente di particolarmente pretenzioso direi, voglio creare un crawler che cerca (diciamo nelle sole homepage dei vari domini da qui passa) i link ai feed rss, poi indicizza le news che contengano nei titoli parole chiave riguardanti la provincia di Messina.
    una cosa facile facile insomma... comunque ti consiglio php-cli, per iniziare a fare i test, poi in produzione se hai bisogno di procedure automatiche ti informi sulle cron (che tra l'altro le cron riguardano linux no php )

    Ho trovato nel manuale la ingore_user_abort() che dice xnavigator ma non la PHP_CLI, ne la cron!
    http://www.google.com/search?hl=en&q...tnG=Search&lr=



  6. #6
    quanti sono sti siti? comunque in linea generale metterei la lista su db e poi passo tot siti per volta allo script tramite cron

  7. #7
    Se ho ben capito PHP CLI dovrebbe essere qualcosa tipo librerie aggiuntive, e la cron (che credo di aver capito si tratta di una funzione) servirebbe per programmare l'esecuzione di uno script ad un dato orario di un dato giorno.

    E gli script che usano PHP CLI devono cominciare con qualcosa tipo "#!/usr/bin/php -q".

    Dico bene?

  8. #8
    Utente di HTML.it
    Registrato dal
    Sep 2002
    Messaggi
    221
    Originariamente inviato da andrea.paiola
    quanti sono sti siti? comunque in linea generale metterei la lista su db e poi passo tot siti per volta allo script tramite cron
    si se hai un link postalo!
    ciAo

  9. #9
    Originariamente inviato da andrea.paiola
    quanti sono sti siti? comunque in linea generale metterei la lista su db e poi passo tot siti per volta allo script tramite cron
    Non ho un'elenco di siti da esplorare, più che altro farei partire lo spider da qualche sito importante che tratti la provincia o la regione, e poi gli farei esplorare anche tutti i link esterni. Ma diciamo pure che in fase di pre-creazione del Crawler deciderò con esattezza il comportamento che dovrà avere per ridurre al minimo i siti da esplorare e per ottenere dei buoni risultati senza, diciamo troppo sforzo computazionale!

  10. #10
    Utente di HTML.it
    Registrato dal
    Sep 2002
    Messaggi
    221
    Originariamente inviato da skateman
    Non ho un'elenco di siti da esplorare, più che altro farei partire lo spider da qualche sito importante che tratti la provincia o la regione, e poi gli farei esplorare anche tutti i link esterni. Ma diciamo pure che in fase di pre-creazione del Crawler deciderò con esattezza il comportamento che dovrà avere per ridurre al minimo i siti da esplorare e per ottenere dei buoni risultati senza, diciamo troppo sforzo computazionale!
    ti sati ispirando a qualche crawler che hai visto in rete?
    se si puoi postare un sito? tanx
    ciAo

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.