Birra = parola numero 76.145

**agoago** · 28-01-2005, 06:13

Mi avanzano solo un paio di sigarette e a birra sono messo peggio pertanto faro' un riassunto, bypasso la parte teorica per proporre direttamente quella pratica.

Prendiamo un foglio elettronico e lavoriamo su una matrice di una data dimensione, per esempio 100-200 colonne per 20.000 righe.
Immettiamo in ogni cella una funzione che produca un numero random, per esempio da 1 a 90.000 (90.000 rappresenterebbe il numero di tutte le parole in uso per una data lingua, per esempio italiano).
Ora ipotizziamo che quella matrice rappresenti un sito (se la matrice sara' di 100*10.000 avremo un ipotetico sito di 1.000.000 di parole.)
Per semplificare il concetto ora faremo finta di avere a che fare con un sito di 10.000 pagine di 100 parole ognuna, ed ogni riga rappresentera' una nosta pagina, ogni cella numerica una parola del dizionario italiano.
Il resto e' semplice. A questo punto potremo facilmente creare tutte le correlazioni che vogliamo tra i vari numeri, le varie parole.

I motori praticamente fanno la stessa cosa con la differenza che leggono realmente ed analizzano frase per frase tutto il web.
Facciamo finta di essere un motore, e come prima cosa assegnamo i seguenti numeri al nostro personale dizionario:

il = 1
lo = 2
la = 3
i = 4
gli = 5
le = 6

ecc ecc

Adesso analizziamo la seguente frase: "Il cane rincorreva i gatti oltre lo steccato".
Avremo: "1,cane,rincorreva,4,gatti,oltre,2,steccato".
Tuttavia come premesso, noi ipotetico motore, avremo preventivamente assegnato ad ogni parola del nostro "ideale dizionario" un numero, per esempio:

cane = 15.125
rincorrere = 29.154
gatto = 57.100
oltre = 1.254
steccato = 65.500

A questo punto la nostra fase tradotta numericamente sara':
1 , 15.125 , 29.154 , 4 , 57.100 , 1.254 , 2 , 65.500

Ora facciamo le varie analisi-correlazioni prendendo atto che in questa prima frase:
1 ha prossimita' 0 rispetto 15.125
1 ha prossimita' 1 rispetto 29.154
1 ha prossimita' 2 rispetto 4
ecc ecc
15.125 ha prossimita' 0 rispetto 29.154
15.125 ha prossimita' 1 rispetto 4
ecc ecc

Insomma, numerando tutte le parole, leggendo tutte le righe delle pagine del web, creando schemi di prossimita' parola per parola, pagina per pagina, sito per sito ecc ecc e' facilissimo stabilire quando un link, una riga, una pagina e' in tema o meno, e' spam o non lo e', indifferentemente dalla lingua usata, basta confrontare i risultati con le medie nazionali, numero per numero.

Non mi addentro oltre, ma da questo semplice esempio potrete capire come la semantica, se basata su questo semplice schema, si risolve grazie al buon vecchio solito e stantio calcolo delle % e delle probabilita'. Nessun esperto di lingue, nessun esperto di semantica, solo un banale programmino che sostituisce ad ogni parola un numero prefissato e poi in base alla sequenza e/o alla % di questi numeri decide il da farsi. Si possono, a questo punto, fare mille ragionamenti e mille calcoli. Ma di fatto, man mano che ci si rende conto di quanto siano semplici questi algoritmi, non si capisce del tutto perche' ci siano cosi' pochi motori di ricerca "seri". Beh, provare per credere.
Differentemente a quanto molti credono non sono le idee che mancano, ma spiderizzare ed analizzare miliardi di pagine e' compito possibile solo a pochi grandi. Almeno adesso e' cosi'. Tuttavia man mano che passeranno gli anni le cose cambieranno, ed entro qualche anno, auspico e credo, chiunque di noi (dato i futuri bassi costi di linee ed hardware) sara' in grado di creare un propio motore competitivo.

**CiodoF** · 28-01-2005, 09:26

Ho letto fumandomi una sigaretta, ma non ho capito molto, forse devo svegliarmi.
Non ho capito da dove parti e cosa vuoi dimostrare.

[OT]Oggi sono solo in ufficio e mi SBAMBO una sigaretta dietro l'altra davanti al pc

[/OT]

**rinzi** · 28-01-2005, 10:16

molto interessante

come sei arrivato a queste conclusioni?

**Stealth** · 28-01-2005, 10:28

le "analisi-correlazioni" come le hai calcolate?
non ho capito questo punto

**rinzi** · 28-01-2005, 10:37

dall'esempio sembra essere la distanza tra le parole nella frase...

**agriturismo** · 28-01-2005, 11:17

Ago, la tue analisi ed ipotesi in linea di massima possono essere codivise.

Anch'io spesso mi chiedo "ma come fa un motore a decidere quello che è a tema e quello che non lo è..."

Ragionando sul "che cosa?" con "che cosa?", con la tua ipotesi il gioco è facile, ma... se cominci ad aggiungere "che cosa" + "dove" le combinazioni aumentano esponenzialmente, ed un motore, non può decidere che, per esempio un hotel è correlato solo ad una o poche città perchè statisticamente nel web ci sono più chiavi correlate.

Oltre al dove, si può aggiungere "quando" "chi" ecc ecc, e le combinazioni aumentano ancora...

**Bat** · 28-01-2005, 11:29

Mi avanzano solo un paio di sigarette e a birra sono messo peggio

statisticamente la maggioranza dei pacchetti di sigarette ne tiene 20.
sempre statisticamente le birre sono a cartoncini di tre-quattro o superiori.

"a birra sono messo peggio" indica chiaramente che ne avanzano una o meno.
con 18 sigarette fumate è lecito supporre che i cartoncini fossero più di uno.

e fin qua abbiamo valutato la situazione. è chiaro il perchè di questo post.

per quanto riguarda la tua analisi è nonostante tutto sostenibile.

non faciliterei però troppo le cose: l'analisi di prossimità è UN metodo.

Ma prova ad immaginare la situazione di una pagina ben progettata : la soluzione ottimale proposta per la miglir leggibilità sul web
**
(occhio ho detto leggibilità non indicizzazione! sto parlando da content manager, non da seo)
**
è di un testo ridotto ai concetti fondamentali, accompagnato da una lista puntata in cui i punti principali vengono messi in evidenza.

in questo caso l'analisi di prossimità metterebbe la mia pagina alla stregua di uno spam, ma la differenza c'è.

Secondo me il vero problema di carenza di buoni motori come dici tu non è tanto la non applicazione di un algoritmo semplice come quello da te descritto, ma la disattenzione ai particolari (il secondo passo che andrebbe fatto) che consiste appunto nell'applicazione delle dovute verifiche/eccezioni/integrazioni all'algoritmo stesso.

**Stealth** · 28-01-2005, 12:25

[supersaibal]Originariamente inviato da agriturismo
Ago, la tue analisi ed ipotesi in linea di massima possono essere codivise.

Anch'io spesso mi chiedo "ma come fa un motore a decidere quello che è a tema e quello che non lo è..."

Ragionando sul "che cosa?" con "che cosa?", con la tua ipotesi il gioco è facile, ma... se cominci ad aggiungere "che cosa" + "dove" le combinazioni aumentano esponenzialmente, ed un motore, non può decidere che, per esempio un hotel è correlato solo ad una o poche città perchè statisticamente nel web ci sono più chiavi correlate.

Oltre al dove, si può aggiungere "quando" "chi" ecc ecc, e le combinazioni aumentano ancora... [/supersaibal]

si fa una media....

**agriturismo** · 28-01-2005, 12:49

[supersaibal]Originariamente inviato da Stealth
si fa una media.... [/supersaibal]

E tutti quelli che sono sotto "alla media" sono fuori tema? Per mè è fuori di ogni logica.

**beke** · 28-01-2005, 12:51

Ma di fatto, man mano che ci si rende conto di quanto siano semplici questi algoritmi, non si capisce del tutto perche' ci siano cosi' pochi motori di ricerca "seri"...

Differentemente a quanto molti credono non sono le idee che mancano, ma spiderizzare ed analizzare miliardi di pagine e' compito possibile solo a pochi grandi...

Ti sei dato la risposta da solo mi sembra no?

Prendi un lavoro facile e veloce, moltiplicalo per otto miliardi di volte, ripeti il tutto quotidianamente (daccordo, non per tutti i siti... :rollo: ) e diventa un incubo da piangere e chiamare la mamma

Discussione: Birra = parola numero 76.145

Strumenti discussione

Ricerca discussione

Visualizza

Birra = parola numero 76.145

ago

Permessi di invio