Abbozzo un'idea per l'identificazione di due pagine identiche:

per ogni pagina abbiamo:
.numero di caratteri: 4350
.numero di parole: 355
.numero di link :18
.peso in kb: 18
.caratteri del titolo:20
.ecc. ecc.
(non credo sia difficile trovare una ventina di voci)

Quindi lo scopo sarebbe di ottenere un numero unico per ogni pagina, potremmo per esempio unire i valori:
4350.355.18.20.ecc.ecc.
oppure
43503551820ecc.ecc.
alla fine avremmo un database con 2 colonne: l'url di ogni pagina e il numero quasi unico attribuito ad ogni pagina, ordinando il database per il numero identificativo saltano fuori le pagine con lo stesso numero e quindi le pagine uguali.
Nel caso il numero identificativo non sia affidabile all 100% seguirà il controllo completo, ma solo delle pagine con il numero identificativo uguale.

Il sistema potrebbe essere valido per trovare pagine identiche, e quindi eludibile togliendo o aggiungendo una parola, credo comunque che potrebbe essere l'idea base per arrivare ad una soluzione piuttosto semplice.