Direttamente dal sito di php

codice:
<?php
// For PHP 5 and up
$handle = fopen("http://www.example.com/", "rb");
$contents = stream_get_contents($handle);
fclose($handle);
?>

<?php
$handle = fopen("http://www.example.com/", "rb");
$contents = '';
while (!feof($handle)) {
  $contents .= fread($handle, 8192);
}
fclose($handle);
?>
in $contents alla fine avrai l'intero contenuto del file remoto. Dopo dovresti dirci di più sulle operazioni che vuoi fare... magari te ne esci con una qualche regex, oppure potresti andare a cercare qualche classe/funzione che aiuti a manipolare un sorgente (X)HTML