Questo è il codice completo della mia pagina di prova (il codice fa un po' schifo, non c'è gestione degli errori e uso grossolano del resto... sorvolate su queste cose )

Crea un form con due campi in cui inserire gli URL da testare.

Con queste coppie (sono pagine raggiunte dalle pubblicità di questo forum) sembra funzionare

http://www.ehiweb.it/servizi_gratis.php?PID=html
http://www.ehiweb.it/servizi_gratis.php

http://www.adwordsitalia.com/2008010...m_medium=50x50
http://www.adwordsitalia.com/20080106.php


Codice PHP:
<html>
<head>
<title>Prova duplicati</title>
</head>

<body>
<h1>Test duplicati</h1>


<?php

if ($_POST[url1] & $_POST[url2]) 
{

//assegna gli url

$url1$_POST[url1];  
$url2$_POST[url2];

//scarica il codice delle pagine

$codicePagina1=file_get_contents($url1);   
$codicePagina2=file_get_contents($url2);

//estrae il titolo

preg_match("/<title[^<>]*>([^<]*)<\/title>/is"$codicePagina1$matches);
$title1 $matches[1];

preg_match("/<title[^<>]*>([^<]*)<\/title>/is"$codicePagina2$matches);
$title2 $matches[1];

//estrae il body e lo ripulisce dai tags

eregi("<body([^>]*)>(.*)</body>",$codicePagina1,$regs);
$bodyPagina1=$regs[2];
eregi("<body([^>]*)>(.*)</body>",$codicePagina2,$regs);
$bodyPagina2=$regs[2];

$testoPagina1=strip_tags($bodyPagina1,'<img>');
$testoPagina2=strip_tags($bodyPagina2,'<img>');

//calcola gli hash e li confronta

$hash1=hash('ripemd160'$testoPagina1);
$hash2=hash('ripemd160'$testoPagina2);

echo 
"Pagina 1: $title1 
 Pagina 2: 
$title2 

"
;

if (
$hash1==$hash2)
echo 
"[b]INDIVIDUATO un duplicato[/b]

"
;

echo 
"Fai un'altra prova
"
;

}

echo 
'<form name="urls"action="test_duplicati.php" method="POST">
  <label>Url 1: <input type="text" name="url1" maxlength="256" size=100></label>

  <label>Url 2: <input type="text" name="url2" maxlength="256" size=100></label>

  <input type="submit" value="Invia">
</form>'
;
15.04 05/08/2008
?>


</body>
</html>