Programmare uno spider

**Mutato** · 30-07-2004, 16:36

Il mio interesse per i motori di ricerca e' piu' tecnico che di marketing, tradizionalmente questo forum mi sembra non tratti di argomenti tecnici, tuttavia vorrei chiedervi se qualcuno e' in grado di fornirmi indicazione sul dove reperire info tecniche sugli spider, come si possono realizzare, quali sono i meccanismi alla base di questi sf.

Vi ringrazio, ciao.

**Stealth** · 30-07-2004, 16:41

io mi sono creato un Search Engine casaling, ho creato il programma spider (in varie versioni) l'ifrastruttura di archivio dati e il software che filtra,visiona e estrapola le key dalle pagine web.

riguardo agli spider dipende cosa intendi, ti posso dire che il mio vero spider è solo uno, ovvero un semplicissimo software che si collega a determinati url, prende il codice html e lo inserisce in un db sql.

stop

il resto lo fa il mio software citato precedentemente

**Mutato** · 30-07-2004, 16:50

Si', anch'io ho realizzato un piccolo sf in grado di prendere pagine html, xml, txt, rtf, doc e pdf, convertire tutto in testo, metterlo in un DB e conservare le url originali.

Questo e' l'aspetto che mi interessa, vorrei capire quali sono le tecniche che rendono un sf migliore dell'altro, quale filosofia ci sta alla base.

**Stealth** · 30-07-2004, 17:01

la qualità dell'informazione.

ottenere la qualità della risposta data una domanda è una cosa molto difficile, di fatti l'unico modo è impostare regole che permettono all'utente di creare un sito qualitativo secondo la fonte.

esempio

- io ho un S.E. potentissimo ed indicizzo tanti siti.
- l'utente A crea un sito di qualità pari al 90% mentre l'utente B un sito di qualità pari al 10%
- a causa di alcuni bachi del mio SE il sito B è in prima posizione mentre A è in ultima

dunque il controllo qualità è minimo quasi inesistente

rivoltiamo la frittata e mettiamo il coltello dalla parte del manico del mio SE

io come SE dico: per essere primi bisogna seguire queste regole (regole che al 50% possono generare situazioni qualitativamente sufficienti)

ottimo sia l'utente A che B x arrivare primi dovranno seguire al meglio le regole del mio SE

non so se mi sono spiegato.

Saluti

**Mutato** · 30-07-2004, 17:23

scusa ho usato l'abbreviazione sf, per software.

Quello che dici l'ho capito, ma di come impostare o migliorare i criteri di rilevanza pensero' poi... ora mi interessava migliorare lo spider, nei tempi di esecuzione, nella capacita' di seguire le url.

A dire il vero, mi piacerebbe costruire uno spider che sia capace di leggere il contenuto delle pagine caricandole in memoria (sono i formati testo) e che le scarichi solo se quelle pagine contengono le parole chiave.

**Stealth** · 30-07-2004, 17:47

ti serve qlke risposta tecnica

beh dimmi, che software usi?

quanto ci mette un tuo spider a prendere l'url, leggere una pagina e trasferirla nel Db?

**Mutato** · 30-07-2004, 18:22

Originariamente inviato da Stealth
ti serve qlke risposta tecnica

beh dimmi, che software usi?

quanto ci mette un tuo spider a prendere l'url, leggere una pagina e trasferirla nel Db?

Ora sto scrivendo in Perl, anche se la maggior parte delle funzioni sono ancora native bash UNIX, mano a mano che funzionano le implemento in Perl.

Non e' un sf unico, sono una serie di sf, uno scarica, uno converte, uno mette nel Db uniti in pipe come e' std unix.

Il tempo dipende dal peso della pagina, purtroppo pero' deve scaricare prima di fare una analisi, mentre io vorrei caricasse la pagina in memoria, e scaricasse solo quelle che hanno certe corrispondenze.

Conosci qualche posto dove posso scaricare un po' di documentazione? o qualche spider open da studiare??

**Stealth** · 30-07-2004, 21:09

io vorrei caricasse la pagina in memoria

non vorrei nuovamente scoprire l'acqua calda ma io farei così
1) carico il codice di una pagina in una stringa (allocazione in RAM) o in un vettore dove ogni campo è una riga della pagina analizzata

2)procedo con l'altro processo che elabora la pagina

ovvio che non puoi avere 4 sw differenti ma un unico sw (generante + processi) che sia in grado di fare tutto

Conosci qualche posto dove posso scaricare un po' di documentazione? o qualche spider open da studiare??

no

**Fello** · 01-08-2004, 14:10

Mutato hai provato a dare un'occhiata su sourceforge.net ?

Discussione: Programmare uno spider

Strumenti discussione

Ricerca discussione

Visualizza

Programmare uno spider

capito

Re: capito

Permessi di invio