Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 11
  1. #1

    creazione nuovo motore di ricerca(Come e' finita?)

    Ciao mitici..Qui Xtiger.
    Un saluto come sempre a tutti.
    Qui a Torino e' una splendida giornata e non puo' che essere una cosa positiva...

    Un paio di giorni fa scendendo nei vecchi thread ne avevo trovato uno in cui Piccolo Elfo e altri si erano incontrati per buttare giu' le idee sull'eventuale sviluppo di un nuovo Search engine...Come e' finita poi? Perche' no facciamo risalire quel Thread secondo me molto interessante anzi interessantissimo? E'tutto morto? Nons e ne fa piu' nulla?

    Non riesco piu' a trovarlo...(Il Thread)

    Grazie...


  2. #2

  3. #3

    Non ci credo...

    Cavolo l'idea era fantastica e avrebbe avuto l'appoggio di molte molte persone...Me il primo...Fare un motore piu' funzionale di quelli gia' esistenti o comunque con caratteristiche diverse sarebbe una cosa fatanstica..Davvero...(Oviamnete tutti noi coninueremo ad amare Google,Msn,Yahoo etc...) C'e' pero' troppo poco confronto in questo settore e poche unita' di nomi al vertice..Non e' giusto...

    ELFO?
    CIODOF?

    Allora?



  4. #4

    i problemi sono molti

    un anno fa sviluppai un MTR base, composto dal software di indicizzazione e quello per il crawling.
    tralasciando il problema del "peso della pagina", sono sorti questioni quali potenza CPU, quantità di banda utilizzata dal bot, dimensione degli HD e dei database MSSQL.

    molto speso un pc non basta quindi bisogna averne di +, soprattutto collegati assieme (clustering).

    bisogna avere tanto tempo e costanza, occuparsene almeno 4 ore al gg se non di più....

    i problemi sono veramente tanti

  5. #5

    Secondo me sopravvaluti la cosa...

    Quando si ha intenzione di parire un motore di ricerca non si puo' naturalemte avere aspettative e pesanre ai grandi numeri ma bisognerebbe concetrarsi su una cosa molto piu' importante:

    Perche' voglio aprire un Search Engine?
    Come sappiamo tutti oramai tutto cio' ce e' ottimizzato e soprattuto non costruito da persone dalla A alla Z puo' essere manipolato(Vedi scripr,door page,Cloaking e altri mille trucchetti)

    Cosai si aspetta la gente,l'utonto e le persone come me che impazziscono e non trovano mai quello che cercano se no dopo minuti e minuti di ricerche?

    Si aspettano L'affidabilita',la genuinita' dei risultati e lo spazzamento totale di schfezze link di rimando e cose simili...E' un obrobrio veramente!...

    Io non punterei assolutamente a nessun o spider perche' prenderebbe tutto cio' che i webmaster vogliono fargli prendere e NON invece QUELLO CHE ' piu' interessante e soprattutto logicamente di interesse Umano.

    Ogni sigola e fottura pagina dovrebbe essere controllata dalla a alla Z e dovrebbe avere solo CONTENUTI PUNTO E BASTA perche' i contenuti anche' se molti non lo dichiarano sono il 90 % dell'essenza di qualsiasi tipo di informazione...(Chi compra un libro,non lo fa per la copetina ma bensi' per quello che c'e' dentro)

    NON DIMENTICHIAMOCI MAI QUESTA COSA CONTENUTI 90% non 60 o 40 o 0

    Quindi a mio modestissimo parere non potra' mai esserci nessuno spider o script che ti fornisce solo pagine con Contenuti.

    Detto questo non si deve solo pensare ai Sommi e incontrastati Search engine..Si comincia da poco magari acquistando 80 100 giga di Banda al mese e 3 400 Mb di spazio web.
    Poi se le cose vanno avanti bene si passa a 400 GIGA,poi a 4000 GIGA DI BANDA etc...

    Gia' avere all'interno di un motore una base anche solo di 1000000 pagine indicizzate ma con criterio selezionate a mano da operatori che lavorano al progetto sarebbe fantastico..

    Poi se le cose funzionano ci si comporta di conseguenza...

    Un motore che indicizza solo alcuni settori( Lasciando fuori dialer o siti fittizi o cose inule) Un Motore utile creato per indicizzare solo pagine utile nel rispetto di cio' che cerca la gente...
    Quindi utilzizare anche la band a in modo ponderato...Scelgiere per esempio le 1000 MACRO CATEGORIE PIU' IMPORTANTI E RICERCATE e occuparsi di indicizzare solo pagine con Contenuti Reali.

    Potrebbe divetare dopo qualche anno una fonte di guadagno(per quelli che ci hanno lavorato) ma sprattutto una risorsa pulita e priva di trucchetti. Un po come Dmoz(pero' sotto forma di motore) .Sia chiaro che qui non si sta parlando di una Mega dir ma di un motore che indicizza Tutte le pagine con contenuti di ogni sito e non solo la Home.

    Questa cosa prima o poi verra' fatta da qualcuno anche' perche' e' piu' facile a farsi che a dirsi...cI VUOLE il tempo certo ma e' fattibile!

    NO?


  6. #6

    un server non "serve" a nulla

    bisogna avere 2 unità di lavoro.
    al tempo io e i miei colleghi avevamo montato su un celeron 500 con 3HD da 40Gb (120gb) su cui girava un bot che scansionava interi siti da noi indirizzati.
    a questo punto i dati andavano a finire in un altro pc con 3Hd da 20Gb circa il quale conteneva DB MSSQL x l'archivio dati.

    non mi dilungo....
    il gioco non ne valeva la candela, tenendo conto delle ore perse e dei soldi mancanti.


    se bisogna fare una cosa, questa deve essere fatta bene...altrimenti è meglio lasciar perdere...mia filosofia

  7. #7
    Io mi occupo professionalmente di analisi quantitativa dei mercati finanziari e quando qualche mese fa per semplice curiosità intellettuale mi sono trovato a ragionare su cosa era e cosa é diventata la directory di Yahoo ho decise che valeva la pena buttare circa 100 euro (tanto costa all'anno lo spazio che ho affittato per gli esperimenti) per toccare con mano quello che volevo conoscere meglio.
    Mi son comprato un bel manuale del PHP (O'REILLY, peratro ottimo), linguaggio che non conoscevo e ho quindi, sfruttando le ore notturne, aperto l'ennesimo sito scimmiotta-directory basato su dati pubblici (DMOZ). Per renderlo differente ho compresso la categorizzazione standard a 2 livelli estendendo le info di natura territoriale. Niente di nuovo anche in questo caso.

    Le soprese sono arrivate in seguito. Mi trovo, pur con ranking 0 (zero) e praticamente senza link in ingresso, nelle prime posizioni con singole pagine molto specifiche per chiavi come "cultura lombardia" o "territorio lombardia" e google ha memorizzato già oltre 100'000 pagine ( site:xxxx.it )

    il traguardo dei 1'000 utenti unici costanti al giorno é stato superato e i limiti del servizio di affitto spazio + sql pure (too many connection a raffica).

    Adesso mi tocca prendere una decisione : chiudo tutto prima che il giocattolo mi sfugga di mano .... o mi affitto un server vero e proseguo l'esperimento aggiungendo le altre 30k pagine che mancano per completare il primo giro di pubblicazione ?

    Il vostro entusiamo sul tema (che é anche il mio entusiasmo) mi fa venir voglia di puntare una seconda fiche sul progetto e di passare a sviluppare meglio il motore di ricerca interno (ora é un semplice SELECT che spazzola le descrizioni DMOZ) utilizzando una tecnologia simile a questa http://y.20q.net/anon ossia usando le reti neurali per classificare (e non a scopo predittivo).

    L'idea é molto semplice : quando non viene trovato qualcosa, l'utente indica dove poi in seconda istanza dove é riuscito a trovare quello che manca nella directory. E' una strunzata ??

  8. #8

    Peccato...

    Stealth il tuo sistema era ottimo ma non capisco perche' non si e' continuata la cosa...Se erano i soldi il problema si poteva aprire un conto Paypal(per dire) dove chiunque poteva fare una donazione anche di 5 Euro -Io lo avrei fatto)se sarebbe servito a sponsorizzare il progetto.

    Io non so cosa darei per riuscire finalmente a trovare un motore veramente utile con risultati efficenti.Google(o altri Search) sono fantastici e ammiro tutto quello che rappresenta /rappresentano ma sarebbe veramente bello avere anche qualche Motore in piu' che cresce seguendo un criterio e accetta con rigore solo contenuti e basta...

    Sono tutti ottimi sistemi..Qui ci sono persone che potrebbero benissimo fare una cosa del genere ed e questo che un po mi rattrista (in senso buono)

    Comunque non si puo' obbligare nessuno a fare nulla anche perche' come detto in precdenza richiderebbe centinaia di ore di tempo.

    Grazie a tutti per l'intervento...Io per il futuro pero' sono fiducioso.


  9. #9

    Per Roberto...(Ciao inanzitutto)

    Potrebbe sembrare una stronzata ma perche' non acquisti altri 3-4 domini per le varie sezioni(Tipo Turismo un dominio etc..) Non ti costerebbe molto meno che avere un server.
    Io fossi in te porcederi in questo modo assolutamente discutibile...Tu ora hai un dominio e 4 grosse macrocategrie.Se comprassi 8 domini potresti gia essere a posto almeno fino alla soglia dei 8000 Unici .
    IL SITO PRINCIPALE(Con la Index base) LO TIENI NEL DOMINIO BASE che chiamarero' A.
    La MACROCATEGORIA X sara nel dominio B
    La Macrocategoria Y sara' nel dominio C
    " " Y sara' nel Dominio D
    " " W sara' nel dominio E.

    Ovviamente per evitare che tutti gli utenti di tutte le categorie intasino la Home del sito principale A,dovresti avere per altri 4 domini che puntano alla Home .

    Esempio: Se i sono nella categoira Y e dominio B e voglio tornare all'home page ,non lo faro' nella A (Che ptorebbe andare in tilt) Ma invece in F.

    Non so se hai capito ..Sicurmanete no...

    Con 8 Domini che smistano la bando e quindi Frazionano l'utenza su diversi server non dovresti avere problemi fino hai 6 7000 unici.Al giorno.

    8 domini con 40 Giga di banda cadauno e 500 mb di spazio (Per dire)
    Potrebbero costarti piu' o meno sui 600 euro l'anno che non e' una grossissima cifra... Poi non so quanto costa esattamente un server dedicato non me ne mai interessato molto fino ad ora...Forse costa meno...


    Comunque Ciao !

  10. #10
    il server utilizzato come front-end per le ricerche non è mai stato un problema....
    ripeto, i problemi ci sono quando devi indicizzare le pagine (quindi prelevare il codice html col bot), soprattutto dal punto di vista degli HD e CPU.

    i dati sono molti, troppi direi, quindi l'unica soluzione era quella di unire 3-4 piccoli server (da 400€ ciascuno) e far lavorare le loro cpu x scansionare.
    bisogna tenere conto anche di un server x i dati (MSSQL) e via dicendo.

    è un casino

    la parte più semplice è quella di sviluppare il bot.

    a proposito...comunque sia tutti possono farsi un mini motore, ripeto basta un pc collegato ad una qualsiasi linea (se poi il gestore (telecom , tiscali o chicchessia) si accorge che in upload/download hai molto consumo, può anche bloccartiil tutto.

    saluti

    P.S.: ma chi fa donazioni paypal? :rollo: credo che sia solo uno spreco...

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.