Questo è il codice completo della mia pagina di prova (il codice fa un po' schifo, non c'è gestione degli errori e uso grossolano del resto... sorvolate su queste cose
)
Crea un form con due campi in cui inserire gli URL da testare.
Con queste coppie (sono pagine raggiunte dalle pubblicità di questo forum) sembra funzionare 
http://www.ehiweb.it/servizi_gratis.php?PID=html
http://www.ehiweb.it/servizi_gratis.php
http://www.adwordsitalia.com/2008010...m_medium=50x50
http://www.adwordsitalia.com/20080106.php
Codice PHP:
<html>
<head>
<title>Prova duplicati</title>
</head>
<body>
<h1>Test duplicati</h1>
<?php
if ($_POST[url1] & $_POST[url2])
{
//assegna gli url
$url1= $_POST[url1];
$url2= $_POST[url2];
//scarica il codice delle pagine
$codicePagina1=file_get_contents($url1);
$codicePagina2=file_get_contents($url2);
//estrae il titolo
preg_match("/<title[^<>]*>([^<]*)<\/title>/is", $codicePagina1, $matches);
$title1 = $matches[1];
preg_match("/<title[^<>]*>([^<]*)<\/title>/is", $codicePagina2, $matches);
$title2 = $matches[1];
//estrae il body e lo ripulisce dai tags
eregi("<body([^>]*)>(.*)</body>",$codicePagina1,$regs);
$bodyPagina1=$regs[2];
eregi("<body([^>]*)>(.*)</body>",$codicePagina2,$regs);
$bodyPagina2=$regs[2];
$testoPagina1=strip_tags($bodyPagina1,'<img>');
$testoPagina2=strip_tags($bodyPagina2,'<img>');
//calcola gli hash e li confronta
$hash1=hash('ripemd160', $testoPagina1);
$hash2=hash('ripemd160', $testoPagina2);
echo "Pagina 1: $title1
Pagina 2: $title2
";
if ($hash1==$hash2)
echo "[b]INDIVIDUATO un duplicato[/b]
";
echo "Fai un'altra prova
";
}
echo '<form name="urls"action="test_duplicati.php" method="POST">
<label>Url 1: <input type="text" name="url1" maxlength="256" size=100></label>
<label>Url 2: <input type="text" name="url2" maxlength="256" size=100></label>
<input type="submit" value="Invia">
</form>';
15.04 05/08/2008
?>
</body>
</html>