Google - sistema di memorizzazione dei risultati estratti.

**Petro_suse91** · 18-05-2006, 18:30

Per avere un'idea un po' più precisa di come fa google - e non solo lui, perchè non provi tu stesso a costruire un motorino di ricerca?

Io ci ho provato, comunque la base della pagina dei risultati è questa (lo spider è un capitolo a parte):
- indici FULLTEXT sul database (quindi scordati le query con LIKE, e cmq credo che G si appoggi a Oracle), anche per definire la rilevanza - ci pensa direttamente il db
- parametri passati in querystring (e relativi controlli sull'input utente)
- ricostruzione della query al db in base a interruttori booleani (AND NOT OR ecc)
- filtri sui campi da selezionare (sempre via query al db)
- ordinamento (idem)
- funzione Lievenshtein per il Forse Cercavi

- dissezione della query di ricerca (la frase cercata), explode e preg_replace per evidenziare i termini nei risultati
- presentazione dell'output evidenziato, colorato, linkato, ecc
- paginazione dei risultati (te la giochi col LIMIT nelle query e due righe di script, senza temptables)
- memorizzazione della query e del numero di risultati trovati, a fini statistici (ma non solo...

)

Direi che c'è un po' tutto, almeno, io sono più che soddisfatto del mio lavoro (un giorno lo metterò anche online).
Se ci provi da te è tutto più chiaro (io ci sono riuscito da solo dopo nemmeno un anno di studio del php)

**agoago** · 19-05-2006, 19:53

Grazie GENKO della segnalazione, non me lo ricordavo questo articolo.

Interessante questo passaggio:

"For example, a web page dedicated entirely to the civil war is often more useful than an article that mentions the civil war in passing, even if the article is part of a reputable site such as Time.com."

Dice ovviamente che una pagina dedicata ad una rgomento ha piu' valore di chi rimanda-cita solo parte dell'argomento.

Tuttavia credo che oggi si possa estendere il concetto anche a tutto il sito e non solo alle pagine.

Un sito che tratta in pieno un argomento avra' un maggior valore, trasmettera' un maggior valore ad una sua pagina rispetto ad una pagina simile posta su un sito multitematico.

Come dire che la tendenza sia quella di premiare la verticalizzazione, questo per districarsi in un web pieno di siti generalizzati-orrizzontali.

--------

L'ho notato anno per anno controllando i miei log.

Mentre anni fa, per un ipotetico sito di doorway che trattava solo allevamento cani, ricevevo accessi anche per key poco attinenti ma ben presenti nella pagina (esempio se c'era scritto nella pagina "allevamento cani in cascina privata a Roma" mi trovavano anche con "cascina privata Roma", adesso mi trovano solo piu' per allevamento cani o allevamento cani roma o cose del genere.

Ora preferisco "spaccare" i siti, piuttosto che mettere 5000 pagine che trattano 5 argomenti su un solo sito ne piazzo 1000 su 5 domini diversi, divise per tema.

Opero anche a ritroso. Se vedo che per un sito ci sono delle vecchie pagine fuori tema allora o le cancello o se belle le sposto su altri siti piu' attinenti, piuttosto compro un dominio nuovo.

**webcarlo** · 20-05-2006, 00:12

Originariamente inviato da GENKO
Questo post come molti altri lo vedo semplicemente come un occasione di accrescere la propria conoscenza tecnica sulle possibili metodologie di funzionamento di un motore di ricerca.

Accrescere la conoscenza tecnica su cosa?
Su tue supposizioni?
Specifico, supposizioni.

**webcarlo** · 20-05-2006, 00:14

Ah, una cosa che forse ti è sfuggita:
Google non cerca in tutto il suo indice.

**weppos** · 20-05-2006, 15:11

Personalmente non trovo la domanda offtopic, anzi, la trovo estremamente interessante.
D'altronde il compito di un SEO è anche quello di cercare di analizzare il funzionamento di un motore.

Come? Beh, con test ma soprattutto supposizioni che saranno poi da verificare o meno.

Il documento citato è istruttivo.
Citando quanto scritto sembrerebbe però che la velocità sia dovuta solo ed esclusivamente alla divisione del lavoro in più server.

Sono abbastanza scettico su questo e presumo che sia solo uno dei fattori determinanti, certo, forse il maggiore.
Spesso mi sono interrogato su quali possibili strutture di caching i motori di ricerca adottino.

Per rispondere a Genko, non escludo del tutto che siano create strutture di caching anche se tabelle per query rischiano di essere eccessivamente pesanti considerando il numero massiccio di query quotidiane.

Non ho mai verificato, e parlo di Google, cambiamenti di query in fase di avanzamento di pagine quindi senz'altro è stata prevista una qualche "funzione di blocco".
Per capirci, non ho mai vistp ce passando dalla 3 alla 4 pagina siano cambiati il numero di risultati o la scala del rank.

Se così fosse si rischierebbe che siti che passano dalla 3 alla 1 pagina mentre tu passi dalla 2 alla 3, per assurdo, ti verrebbero nascosti.

**webcarlo** · 20-05-2006, 19:04

Google non ha interesse a cercare in tutto il suo indice, se fate delle prove vedrete.

Io condivido con quanto dice Ferro9.
Ed inoltre che utilità ha questo post?

**weppos** · 21-05-2006, 12:43

Ed inoltre che utilità ha questo post?

Estremamente elevata.
Studiare o condividere idee sui comportamenti e la progettazione di un motore di ricerca.

Per una volta che si esce un po' dalle solite domande tipo meglio il meta key o description tutti spaventati che il thread sia inutile?!?

**webcarlo** · 21-05-2006, 13:15

Bene, parliamo anche se Dio influisca sulle SERP di Google.
Io credo che nostro Signore possa influire, poichè se un uomo appena confessato, torna a casa e digita su Google "Video Porno di Brigitta Bulgari", probabilmente il buon Signore gli spara fuori 3 o 4 risultatnti che portano a siti di genere non peccaminoso. Ecco perchè gli spam engine non riescono a toglierli.

E' un'ipotesi anche questa interessante credo.

**weppos** · 21-05-2006, 17:54

webcarlo, mi sa che sei completamente fuori concetto.
Qui non si parla di influenzamento delle SERP, la domanda era rivolta ad un'analisi della progettazione di una funzione di un motore.

**uMoR** · 22-05-2006, 01:46

Non ho letto con attenzione tutti i post ma propongo una mia idea.

I motori di ricerca partono da un indice inverso, un indice al quale ogni parola ha associato un id dei documenti in cui è presente. Pertanto il motore di ricerca, siccome converte lo spazio in un AND logico, dal suo indice inverso prende in considerazione i documenti che presentano quelle parole oppure i siti che presentano quelle parole.

Dopodichè una volta che sono stati estrapolati diciamo 5 milioni di documenti corrispondenti alla query il motore di ricerca applica i suoi algoritmi e decide l'ordine di apparizione.

Ora facendo qualche calcolo approssimativo un cluster delle dimensioni di qualche migliaio di computer come quelli di Google per fare queste operazioni ci mette una manciata di millisecondi.

Per velocizzare questo procedimento potrebbe avere un sistema di caching (tipo quello di MySql per intenderci) che velocizza l'estrapolazione dei documenti. Però, vista la quantità di query al secondo immagino che il caching venga effettuato sulle query principali ripetute più volte al giorno, non per il pazzo che cerca "cane pazzo mandrillo lallalalalala".

Allora in realtà credo che i motori di ricerca non abbiano un sistema di memorizazzione dei risultati ma semplicemente che i risultati cambiano in base alla frequenza di spiderizzazione\analisi dei siti per una data serp.
Se oggi la query "html" restituisce x risultati, domani sarà probabilmente identica non perchè Google ha un sistema di memorizzazione dei risultati ma perchè non ci sono stati cambiamenti incisivi sui siti presenti nella serp da modificare il ranking.

Noi non possiamo concepire una struttura di un motore di ricerca perchè non abbiamo mai avuto a che fare con un cluster di diciamo 1000 pc. Io al massimo che ho visto è stato un cluster di qualche decina di pc per calcoli scientifici e sono rimasto a bocca aperta dalla potenza di calcolo che tirava fuori.. Figuriamoci se vedessi all'opera il cluster di Google

Discussione: Google - sistema di memorizzazione dei risultati estratti.

Strumenti discussione

Ricerca discussione

Visualizza

Permessi di invio