Credo di non aver ben capito, nel post di argomento, quello che tu intendevi...
Io pensavo tu avessi una specie di robot-directory che dovesse evitare i duplicati: io ti ho proposto un algoritmo che ti consente di fare confronti membro a membro via db (utile nel caso in cui tu abbia un circuito di link).
Ti espongo cosa ho capito del tuo problema.
Dati x, y due pagine e z un utente.
z entra nel sito alla ricerca sito web nel circuito (le pagine del circuito sono in un database (...?)). Il circuito, gestito da un robot, è riempito (in che modo?) da varie pagine. Si trovano nel circuito n pagine, di cui 2 o più propabilmente simili. Il robot admin-front (o il robot user-front?) deve eliminare i doppioni (o comunque segnalare una similitudine).
A me manca un'importante informazione: le pagine del circuito devono essere inevitabilmente inserite in un db (o un file): il mio consiglio è quello di fare un confronto membro a membro su TUTTE le pagine già presenti (con un consumo di query forse non trascurabile) per ottenere una verifica migliore.
La pagina che tu mi hai postata PHP fa un confronto semplicemente fra 2 URL: è inevitabile che tu debba fare un controllo globale, qualora gli url siano più di 2... (il problema del numero delle query può essere raggirato con un sistema di cache).
Io ho preferito consigliarti strip-tag() perché si tratta di una funzione banale, è evidente che se sei pratico con le espressioni regolare puoi affinare il tuo risultato (vale lo stesso per gli algoritmi di confronto hash e similar-text).
Scusa anche tu la lunghezza!![]()