Come funziona uno spider?

**Mutato** · 26-07-2004, 13:58

Ciao, sto costruendo una piccola applicazione che analizza alcuni siti web e ora mi sto occupando di scrivere uno spider.

Trattandosi di una applz. usa e getta puo' anche essere rozzo e utilizzare un sacco di risorse, ma deve funzionare.

Mi serve un po' di teoria, pero', ecco perche' sono qui.

Secondo voi e' giusto procedere cosi':

1) mando lo spider sul sito
2) scarico tutto il sito, fin dove mi e' permesso (no sessioni, no cookie, no sever esterni)

a questo punto ho il sito sul mio HD.

quindi scorro tutte le directory e indicizzo le pagine, memorizzando le parole in un db con relative url...

funziona cosi' piu' o meno? dove trovo documentazione?

**weppos** · 26-07-2004, 15:00

Sì, la logica è proprio quella.

1. lo spider visita i siti
2. in base alle istruzioni lo spider scarica il contenuto raggiungibile su supporti interni
3. un secondo spider legge i contenuti e li indicizza

Tra i passi 2 e 3 può esserci un abisso in base alle necessità.
Ad esempio ci può essere una fase di controllo sulla validità delle pagine, una fase preliminare di pulizia antispam, una fase di estrazione di link esterni da prendere per essere seguiti in futuro, una fase di controlli interni e così via.

Discussione: Come funziona uno spider?

Strumenti discussione

Ricerca discussione

Visualizza

Come funziona uno spider?

Permessi di invio