Key Density 2.0

**gik25** · 16-09-2005, 18:39

Low faceva notare che la Key Density è ormai un concetto poco influente, considerando che ci sono altri mille fattori più importanti e che comunque è solo uno di questi mille fattori.

Tuttavia esisterà sempre un parametro ideale, anche se il suo calcolo dovesse essere differente da sito a sito e variabile nel tempo e secondo gli algoritmi, la Key Density rimarrà comunque un elemento dell'algoritmo di posizionamento.

Ebbene stavo pensado che ogni parola in italiano ha una frequenza di utilizzo diversa dalle altre, e tale frequenza cambia ancora a seconda dei settori. Ebbene molto probabilmente la key density ideale (per quanto poco possa contare rispetto agli altri parametri) dipende sicuramente dalla parola stessa!

es.
se cerco cane su google.it = 1.980.000
guinzaglio = 214.000
guinzaglio cane = 101.000

P(cane) = 1.980.000 / numero_totale_pagine_indicizzate
P(guinzaglio) = 214.000 / numero_totale_pagine_indicizzate
P(guinzaglio & cane) = 101.000 / numero_totale_pagine_indicizzate
P(guinzaglio|cane) = P(guinzaglio & cane)/P(cane) = 5%
P(cane|guinzaglio) = P(guinzaglio & cane)/P(guinzaglio) = 47%

tradotto: se una pagina parla di cani e non di guizagli ok. Viceversa, se parla di guinzagli, ma non di cani, la cosa inizia ad essere considerata strana...

I dati non sono molto indicativi, perchè non si dovrebbe contare il numero di siti sui cani, ma il numero di volte in cui la parola cane è ripetuta in ciascuno di quei siti...
Comunque cane è usato in italiano 10 volte più di guinzaglio

Secondo voi cosa penserebbe google se il vostro sito ripete la parola guinzaglio 10 volte più della parola cane?

Ripeto che non basta vedere le pagine di google su un certo argomento, ma bisognerebbe avere il numero di volte che una parola è ripetuta in quelle pagine. Le due statistiche coinciderebbero se il numero di siti che parlano di cani fosse uguale al numero di siti che parlano di guinzagli...

PS: il giochetto di sopra con le probabilità condizionate può essere automatizzato con una tecnica basata sull'Information Gain o sulle reti neurali e allora altro che giochetto. Negli usa il ministero dell'agricoltura usa queste tecniche per scoprire i truffatori e funzionano alla perfezione.

**gik25** · 16-09-2005, 18:47

P(x) sta per Probabilità che x sia vero
P(x & y) sta per probabilità che sia x che y siano veri
P(x|y) significa qual'è la probabilità che x sia vero sapendo che y lo è?

IG(y|x) = H(y)-H(y|x) sta per information gain ed è pari alla diminuzione di entropia (numero minimo di bit necessari a trasmettere un messaggio) necessaria alla comunicazione di y se il ricevente conosce x.

**gik25** · 16-09-2005, 18:47

.

**E.L.** · 16-09-2005, 19:32

DEvo riprendere in mano gli appunti di statistica che sono ormai 3 o 4 anni che non tocco?

**gik25** · 16-09-2005, 19:34

[supersaibal]Originariamente inviato da E.L.
DEvo riprendere in mano gli appunti di statistica che sono ormai 3 o 4 anni che non tocco? [/supersaibal]

No, è solo che ho postato velocemente senza chiarire, se le forumle non sono chiare spiego meglio.

**E.L.** · 16-09-2005, 19:39

[supersaibal]Originariamente inviato da gik25
P(x) sta per Probabilità che x sia vero
P(x & y) sta per probabilità che sia x che y siano veri
P(x|y) significa qual'è la probabilità che x sia vero sapendo che y lo è?

Fin qui ok, si tratta semplicemente di probabilità condizionata.
Poi però mi perdo.

**francesco321654** · 16-09-2005, 20:52

ok ma se no sbaglio la density è anche contabilizzata rispetto al totale di parole nel sito
cioe la percentuale di key presenti all'interno del testo o sbaglio?
certo se la key e ha una percentuale di 4% su un totale di elementi di 100 e ok ma se la trovo su un totale di 10 parole iniziamo a vedere qualcosa che non va
spero mi abiate capito almeno voi cio che ho scritto perche io non ci capisco proprio piu nulla

**Stefano Sirri** · 16-09-2005, 21:01

[supersaibal]Originariamente inviato da francesco321654
ok ma se no sbaglio la density è anche contabilizzata rispetto al totale di parole nel sito
cioe la percentuale di key presenti all'interno del testo o sbaglio?
certo se la key e ha una percentuale di 4% su un totale di elementi di 100 e ok ma se la trovo su un totale di 10 parole iniziamo a vedere qualcosa che non va
spero mi abiate capito almeno voi cio che ho scritto perche io non ci capisco proprio piu nulla [/supersaibal]

Forse è il contrario: più il testo è breve e più la density può essere alta.

Se io in una pagina scrivo: "questo è il mio cane" ogni singola parola ha una densità del 20%.

Se io invece scrivo:
"questo è il mio cane, è un bellissimo cane dal nome cagnetto, è un nome ottimo per il mio cane" la percentuale della parola CANE scende al 15%, ma il testo è sicuramente più spammoso.

**lipodio** · 16-09-2005, 22:43

Sarò cattivo ma secondo me sono soltanto seghe mentali.

I motori di ricerca sono più stupidi di così.

Sono pienamente convinto che per "cane" il ranking di

"il cane ha il guinzaglio"

e

"ma cane lo sa sgomberare"

sia assolutamente LO STESSO.

Non credo affatto che da parte dei motori vengano fatte considerazioni sul fatto che "guinzaglio" è probabilisticamente più legato a "cane". Anche perché questo comporterebbe una esplosioni di situazioni differenti, parole ognuna che si lega con probabilità diverse ad altre parole, lingue diverse con rapporti completamente diverse, casi particolari, eccezioni, ecc. oltre alla necessità di calcolare, prima, tutti questi rapporti numerici.

Secondo me l'approccio puramente matematico e statistico ai motori di ricerca è sbagliato. E' più corretto l'approccio da programmatori.
Non solo perché i motori di ricerca sono scritti da programmatori ma anche perché il programmatore è l'unico a sapere cosa ragionevolmente si può ottenere da un software e come ottenerlo.
Un approccio matematico e statistico rischierebbe di essere eccessivamente teorico, magari bello e utile ma poco calato nella realtà delle cose. Per scrivere un software invece bisogna essere molto pratici.
E' lo stesso motivo per cui le macchine le aggiustano i meccanici sporchi di grasso e non i fisici o i chimici oppure, oggi con le centraline elettroniche sulle auto, gli ingegneri elettronici.

Ora poniamoci la domanda. Cosa ama il programmatore?

Il programmatore ama gli algoritmi costituiti da regole semplici ma che applicati in ricorsione magari su grandi moli di dati siano in grado di produrre grandi performance.

L'esempio lampante di ciò e' il pagerank!

Il pagerank è un algoritmo che produce grandi performance ed è programmativamente molto semplice! Basato su regole poche e ferree. Ecco il perché della sua adozione.

Altri ragionamenti, teorici, potrebbero avere magari una applicazione ma così complessa e irta di insidie nella pratica da non essere presi in facile considerazione.

Poi del doman non c'è certezza, però per ora per capire come "pensa" un motore di ricerca io consiglio di ragionare da programmatore e dietro alle serp ricercare algoritmi con regole semplici, pulite, senza troppe eccezioni, piuttosto che considerare strani calcoli probabilistici sul vocabolario italiano.

**key** · 17-09-2005, 10:30

OPPURE pensate che sia unica?

Discussione: Key Density 2.0

Strumenti discussione

Ricerca discussione

Visualizza

Key Density 2.0

Key Density NON VARIA rispetto a un mtr?

Permessi di invio