Visualizzazione dei risultati da 1 a 9 su 9

Discussione: Programmare uno spider

  1. #1

    Programmare uno spider

    Il mio interesse per i motori di ricerca e' piu' tecnico che di marketing, tradizionalmente questo forum mi sembra non tratti di argomenti tecnici, tuttavia vorrei chiedervi se qualcuno e' in grado di fornirmi indicazione sul dove reperire info tecniche sugli spider, come si possono realizzare, quali sono i meccanismi alla base di questi sf.

    Vi ringrazio, ciao.
    Are you alive?
    No, but I was written with LOVE. A new scripting language.
    www.frequenze.it

  2. #2
    io mi sono creato un Search Engine casaling, ho creato il programma spider (in varie versioni) l'ifrastruttura di archivio dati e il software che filtra,visiona e estrapola le key dalle pagine web.

    riguardo agli spider dipende cosa intendi, ti posso dire che il mio vero spider è solo uno, ovvero un semplicissimo software che si collega a determinati url, prende il codice html e lo inserisce in un db sql.

    stop

    il resto lo fa il mio software citato precedentemente

  3. #3
    Si', anch'io ho realizzato un piccolo sf in grado di prendere pagine html, xml, txt, rtf, doc e pdf, convertire tutto in testo, metterlo in un DB e conservare le url originali.

    Questo e' l'aspetto che mi interessa, vorrei capire quali sono le tecniche che rendono un sf migliore dell'altro, quale filosofia ci sta alla base.
    Are you alive?
    No, but I was written with LOVE. A new scripting language.
    www.frequenze.it

  4. #4
    la qualità dell'informazione.

    ottenere la qualità della risposta data una domanda è una cosa molto difficile, di fatti l'unico modo è impostare regole che permettono all'utente di creare un sito qualitativo secondo la fonte.

    esempio

    - io ho un S.E. potentissimo ed indicizzo tanti siti.
    - l'utente A crea un sito di qualità pari al 90% mentre l'utente B un sito di qualità pari al 10%
    - a causa di alcuni bachi del mio SE il sito B è in prima posizione mentre A è in ultima

    dunque il controllo qualità è minimo quasi inesistente

    rivoltiamo la frittata e mettiamo il coltello dalla parte del manico del mio SE

    io come SE dico: per essere primi bisogna seguire queste regole (regole che al 50% possono generare situazioni qualitativamente sufficienti)

    ottimo sia l'utente A che B x arrivare primi dovranno seguire al meglio le regole del mio SE

    non so se mi sono spiegato.

    Saluti

  5. #5
    scusa ho usato l'abbreviazione sf, per software.

    Quello che dici l'ho capito, ma di come impostare o migliorare i criteri di rilevanza pensero' poi... ora mi interessava migliorare lo spider, nei tempi di esecuzione, nella capacita' di seguire le url.

    A dire il vero, mi piacerebbe costruire uno spider che sia capace di leggere il contenuto delle pagine caricandole in memoria (sono i formati testo) e che le scarichi solo se quelle pagine contengono le parole chiave.

    Are you alive?
    No, but I was written with LOVE. A new scripting language.
    www.frequenze.it

  6. #6

    capito

    ti serve qlke risposta tecnica

    beh dimmi, che software usi?

    quanto ci mette un tuo spider a prendere l'url, leggere una pagina e trasferirla nel Db?

  7. #7

    Re: capito

    Originariamente inviato da Stealth
    ti serve qlke risposta tecnica

    beh dimmi, che software usi?

    quanto ci mette un tuo spider a prendere l'url, leggere una pagina e trasferirla nel Db?
    Ora sto scrivendo in Perl, anche se la maggior parte delle funzioni sono ancora native bash UNIX, mano a mano che funzionano le implemento in Perl.

    Non e' un sf unico, sono una serie di sf, uno scarica, uno converte, uno mette nel Db uniti in pipe come e' std unix.

    Il tempo dipende dal peso della pagina, purtroppo pero' deve scaricare prima di fare una analisi, mentre io vorrei caricasse la pagina in memoria, e scaricasse solo quelle che hanno certe corrispondenze.

    Conosci qualche posto dove posso scaricare un po' di documentazione? o qualche spider open da studiare??
    Are you alive?
    No, but I was written with LOVE. A new scripting language.
    www.frequenze.it

  8. #8
    io vorrei caricasse la pagina in memoria
    non vorrei nuovamente scoprire l'acqua calda ma io farei così
    1) carico il codice di una pagina in una stringa (allocazione in RAM) o in un vettore dove ogni campo è una riga della pagina analizzata

    2)procedo con l'altro processo che elabora la pagina

    ovvio che non puoi avere 4 sw differenti ma un unico sw (generante + processi) che sia in grado di fare tutto

    Conosci qualche posto dove posso scaricare un po' di documentazione? o qualche spider open da studiare??
    no

  9. #9
    Mutato hai provato a dare un'occhiata su sourceforge.net ?

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.