[supersaibal]
Originariamente inviato da chisono
è molto più semplice e veloce di quanto possa sembrare invece.
tutte le pagine in cache di Google vengono archiviate come cluster ed ogni cluster ha un suo ordine.
per farti un esempio pratico:
prendi 10 radiografie e le sovrapponi una sull'altra, mettiti controluce e guarda se le radiografie sono uguali.
l'argoritmo di google identifica solo le radiografie uguali (con uno scarto di similarità intorno al 5-6%) e le segna.
ancora più semplice è il discorso per le pagine ancora non archiviate, perchè in pratica se il codice HTML di un dominio risulta uguale o simile ad uno già presente nella cache, viene visto come duplicato.
per le pagine interne dello stesso sito, vale molto la rete dei link, una galleria di foto composta da 20 immagini non viene penalizzata se i link sono concatenati pagina per pagina, ma lo sarebbe nel caso in cui ogni pagina è estranea dalla altre. [/supersaibal]