Salve, ottenendo il codice di una pagina con fread, vorrei isolare tutti gli url assoluti.
Uso la seguente ma mi da ovviamente pure le pagine interne e le email:

$match_result=preg_match_all('/<\s*a\s*href="([^\"]+)"\s*>([^>]*)<\/a>/i',$contenuto, $match_array, PREG_SET_ORDER);

del tipo:

pagina.php
pippo@email.com
livello.dominio.com
direct/pagina.php
www.dominio.com (a me serve solo questo)

Come faccio?

inoltre, come faccio a dirgli: se il contenuto di elemento di vettore contiene la parola "No Follow" dunque.........mi serve per evitare lo spideraggio di pagine no follow.

Grazie mille!