Secondo me non è fisicamente possibile controllare se due pagine sono duplicate (intendo su domini diversi)...


Il N° di confronti è infatti pari a ((N*N)-N)/2 cioè a un numero molto simile al quadtato di N!

Anche applicando il confronto solo alle pagine con la massima probabilitò di essere simili (può darsi che google ci classifichi in sezioni semantiche in base alle pagine o in base al sito) il N° di confronti è comunque elevatissimo (imho un bot potrà separare tra qualche decina di sezioni senza commettere errori)


Anche volevdo confrontare solo una certa percentuale di siti per ogni categoria (magari quelli con le key principali più simili) credo che la cosa non sarebbe fattibile...

Le key principali infatti mi sembrano spesso abbastanza diverse anche tra siti molto simili...

Senza contare che questo sistema NON riduce il n° di accessi al DB....

Tuttavia non riesco a immaginare se la struttura dei DB (spesso a indice invertito) permetta confronti più rapidi...

Questa però è solo una mia teoria e mi chiedo se qualcuno abbia esperienze in proposito...