Duplicate Penalty - Penalizzazione per duplicazione dei contenuti

**gik25** · 17-03-2005, 15:50

Come funziona realmente?

Quanto è forte tra due pagine dello stesso sito? Cosa penalizza?
Quanto è probabile che google rilevi la similarità tra due pagine identiche su domini diversi (e se si lincano? e se condividono adsense?)
Quanto è probabile che google rilevi la similarità che contengono contenuti identici organizzati diversamente?

PS: non è possibile confrontare a due a due tutte le pagine del web nemmeno per un supercomputer della nasa. Però si potrebbe farlo sui risultati di una data query presi in gruppi di 5 (es. tra i primi 5 risultati per la query k ce ne sono due che sembrano avere gli stessi contenuti?)

**chisono** · 17-03-2005, 16:24

è molto più semplice e veloce di quanto possa sembrare invece.

tutte le pagine in cache di Google vengono archiviate come cluster ed ogni cluster ha un suo ordine.

per farti un esempio pratico:

prendi 10 radiografie e le sovrapponi una sull'altra, mettiti controluce e guarda se le radiografie sono uguali.

l'argoritmo di google identifica solo le radiografie uguali (con uno scarto di similarità intorno al 5-6%) e le segna.

ancora più semplice è il discorso per le pagine ancora non archiviate, perchè in pratica se il codice HTML di un dominio risulta uguale o simile ad uno già presente nella cache, viene visto come duplicato.

per le pagine interne dello stesso sito, vale molto la rete dei link, una galleria di foto composta da 20 immagini non viene penalizzata se i link sono concatenati pagina per pagina, ma lo sarebbe nel caso in cui ogni pagina è estranea dalla altre.

**gik25** · 17-03-2005, 16:48

[supersaibal]Originariamente inviato da chisono
è molto più semplice e veloce di quanto possa sembrare invece.

tutte le pagine in cache di Google vengono archiviate come cluster ed ogni cluster ha un suo ordine.

per farti un esempio pratico:

prendi 10 radiografie e le sovrapponi una sull'altra, mettiti controluce e guarda se le radiografie sono uguali.

l'argoritmo di google identifica solo le radiografie uguali (con uno scarto di similarità intorno al 5-6%) e le segna.

ancora più semplice è il discorso per le pagine ancora non archiviate, perchè in pratica se il codice HTML di un dominio risulta uguale o simile ad uno già presente nella cache, viene visto come duplicato.

per le pagine interne dello stesso sito, vale molto la rete dei link, una galleria di foto composta da 20 immagini non viene penalizzata se i link sono concatenati pagina per pagina, ma lo sarebbe nel caso in cui ogni pagina è estranea dalla altre. [/supersaibal]

Non sono sicuro di aver capito bene cosa intendi...

Però mi sembra che dal tuo discorso google trovi solo pagine identiche anche nel codice html della pagina, è così?

**chisono** · 17-03-2005, 16:54

[supersaibal]Originariamente inviato da gik25
Non sono sicuro di aver capito bene cosa intendi...

Però mi sembra che dal tuo discorso google trovi solo pagine identiche anche nel codice html della pagina, è così? [/supersaibal]

ovvio, non c'è l'omino che confronta le pagine per vedere se sono uguali graficamente.

il metodo più semplice è quello di confrontare l'html delle pagine (tabelle, sfondi, link etc etc) anche perchè questo criterio di archiviazione permette anche di stilare la SERP quindi non c'è un lavoro "doppio" per verificare duplicati.

un test rapido lo puoi fare facendo il duplicato una pagina già presente e indicizzata.
vedrai che la nuova pagina non verrà neanche inserita nel DB.

altro test, prendi 2 pagine di 2 domini diversi (già indicizzati) e farne diventare 2 cloni, vedrai che la pagina che ha subito le modifiche (entro 48 ore) verrà penalizzata o addirittura cancellata.

**gik25** · 17-03-2005, 17:42

Umh... non è così veloce la cosa.

Una volta avevo due siti identici e le pagine di uno dei due (a caso) scomparivano ogni mese per poi ricomparire ed essere nuovamente eliminate dopo qualche tempo.

Inoltre cosa succede se diversi siti hanno testo uguale ma html diverso?

**diego.tinelli** · 17-03-2005, 18:16

la cosa interessa anche a me

io ho 80 siti e questi 80 siti hanno alcune pagine completamente uguali link sfondi ecc...

ma google non mi ha mai penalizzato
inoltre i siti sono tutti sullo stesso ip

effettivamente sono siti che per brand devono essere uguali quindi non posso farli diversamente.

**chisono** · 17-03-2005, 18:28

[supersaibal]Originariamente inviato da gik25
Umh... non è così veloce la cosa.

Una volta avevo due siti identici e le pagine di uno dei due (a caso) scomparivano ogni mese per poi ricomparire ed essere nuovamente eliminate dopo qualche tempo.

Inoltre cosa succede se diversi siti hanno testo uguale ma html diverso? [/supersaibal]

in effetti la pulitura alcune volte si protrae per mesi, soprattutto se le pagine clonate sono un numero esiguo rispetto a quelle indicizzate per il dominio.

in ogni caso i tempi perchè google si accorga che le pagine sono uguali sono brevissimi, mentre per l'uscita dalla serp alcune volte posso passare mesi.

@diego: ci sono delle eccezioni, ad esempio se ricerchi "divina commedia" propabilente usciranno 2.000.000 di siti che hanno come testo nell' html "nel mezzo del cammin di nostra vita..." Google mica banna perchè ritiene che siano cloni?

**diego.tinelli** · 17-03-2005, 18:31

ok grazie era per capire

perchè effetivamente quelle pagine sono perfettamente uguali

**gik25** · 17-03-2005, 19:14

[supersaibal]Originariamente inviato da chisono
in effetti la pulitura alcune volte si protrae per mesi, soprattutto se le pagine clonate sono un numero esiguo rispetto a quelle indicizzate per il dominio.

in ogni caso i tempi perchè google si accorga che le pagine sono uguali sono brevissimi, mentre per l'uscita dalla serp alcune volte posso passare mesi.

@diego: ci sono delle eccezioni, ad esempio se ricerchi "divina commedia" propabilente usciranno 2.000.000 di siti che hanno come testo nell' html "nel mezzo del cammin di nostra vita..." Google mica banna perchè ritiene che siano cloni? [/supersaibal]

Appunto... secondo me Google non banna due siti con simile contenuto testuale perchè potrebbe essere semplicemente un articolo non protetto da copyright.

Se fosse così due pagine simili (non identiche) verrebbero semplicemente a competere per la prima posizione e quella che perde verrebbe eliminata dal filtro antisimilarità.

Che ne pensi?

**chisono** · 17-03-2005, 19:16

[supersaibal]Originariamente inviato da gik25
Appunto... secondo me Google non banna due siti con simile contenuto testuale perchè potrebbe essere semplicemente un articolo non protetto da copyright.

Se fosse così due pagine simili (non identiche) verrebbero semplicemente a competere per la prima posizione e quella che perde verrebbe eliminata dal filtro antisimilarità.

Che ne pensi? [/supersaibal]

penso che è giusto, per questo ti dico che la duplicazione viene calcolata sul codice e non sul testo.

ovviamente ci sono anche altri paramenti come data di creazione, link in uscita ed in entrata, IP del server etc etc...

ma fondamentalemnte quello che provoca il duplicato è il codice HTML

Discussione: Duplicate Penalty - Penalizzazione per duplicazione dei contenuti

Strumenti discussione

Ricerca discussione

Visualizza

Duplicate Penalty - Penalizzazione per duplicazione dei contenuti

Permessi di invio