Visualizzazione dei risultati da 1 a 2 su 2
  1. #1

    Come funziona uno spider?

    Ciao, sto costruendo una piccola applicazione che analizza alcuni siti web e ora mi sto occupando di scrivere uno spider.

    Trattandosi di una applz. usa e getta puo' anche essere rozzo e utilizzare un sacco di risorse, ma deve funzionare.

    Mi serve un po' di teoria, pero', ecco perche' sono qui.

    Secondo voi e' giusto procedere cosi':

    1) mando lo spider sul sito
    2) scarico tutto il sito, fin dove mi e' permesso (no sessioni, no cookie, no sever esterni)

    a questo punto ho il sito sul mio HD.

    quindi scorro tutte le directory e indicizzo le pagine, memorizzando le parole in un db con relative url...

    funziona cosi' piu' o meno? dove trovo documentazione?
    Are you alive?
    No, but I was written with LOVE. A new scripting language.
    www.frequenze.it

  2. #2
    Sì, la logica è proprio quella.

    1. lo spider visita i siti
    2. in base alle istruzioni lo spider scarica il contenuto raggiungibile su supporti interni
    3. un secondo spider legge i contenuti e li indicizza

    Tra i passi 2 e 3 può esserci un abisso in base alle necessità.
    Ad esempio ci può essere una fase di controllo sulla validità delle pagine, una fase preliminare di pulizia antispam, una fase di estrazione di link esterni da prendere per essere seguiti in futuro, una fase di controlli interni e così via.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.