Crawlare una pagina

**nikotina** · 01-06-2012, 20:39

In rete ho trovato questo script che fa uso di php e curl per crawlare una pagina.
Per utilizzare questa semplice funzione basterà chiamare la funzione getContent con argomento l’url completo della pagina da ricevere.
Cosa ne pensate?

Codice PHP:


<?php

$someUA = array (

"Mozilla/5.0 (Windows; U; Windows NT 6.0; fr; rv:1.9.1b1) Gecko/20081007 Firefox/3.1b1",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.0",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/0.4.154.18 Safari/525.19",

"Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13",

"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.40607)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322)",

"Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.0.3705; Media Center PC 3.1; Alexa Toolbar; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",

"Mozilla/45.0 (compatible; MSIE 6.0; Windows NT 5.1)",

"Mozilla/4.08 (compatible; MSIE 6.0; Windows NT 5.1)",

"Mozilla/4.01 (compatible; MSIE 6.0; Windows NT 5.1)");

function getRandomUserAgent ( ) {

    srand((double)microtime()*1000000);

    global $someUA;

    return $someUA[rand(0,count($someUA)-1)];

}

function getContent ($url) {

 

    // Crea la risorsa CURL

    $ch = curl_init();

 

    // Imposta l'URL e altre opzioni

    curl_setopt($ch, CURLOPT_URL, $url);

    curl_setopt($ch, CURLOPT_HEADER, 0);

    curl_setopt($ch, CURLOPT_USERAGENT, getRandomUserAgent());

    curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);

    // Scarica l'URL e lo passa al browser

    $output = curl_exec($ch);

    $info = curl_getinfo($ch, CURLINFO_HTTP_CODE);

    // Chiude la risorsa curl

    curl_close($ch);

    if ($output === false || $info != 200) {

      $output = null;

    }

    return $output;

 

}

?>

**cubalibre** · 02-06-2012, 08:21

Si tratta di una tecnica di Web Scraping penalizzata da Penguin perchè, se inserita in una pagina, all'atto della visita della stessa farebbe vedere allo spider una cosa diversa da quella che vedono gli utenti.

**rigby76** · 02-06-2012, 11:41

Originariamente inviato da nikotina
Cosa ne pensate?

Di che tipo di parere hai bisogno? Cosa intendi fare con questa funzione? Tieni presente che se le tue richieste sono di carattere tecnico, la sede più giusta dove porle è il forum PHP.

**nikotina** · 02-06-2012, 14:15

Il parere era sempre inerente al SEO, argomento di questo forum:conviene, o per lo meno è rischioso ma non troppo, usare questa tecnica per migliorare il posizionamento di un sito?

**rigby76** · 03-06-2012, 11:26

Non mi è chiaro quale sia la tecnica che intendi usare. Hai postato solamente una funzione di lettura del contenuto della pagina di un altro sito: e poi?

Va da se che ogni tecnica che porti alla duplicazione di contenuti di altri, non è una tecnica che può portare beneficio ad un sito diverso da uno spam-engine. Senza contare ovviamente considerazioni sulla legittimità di una cosa del genere.

**nikotina** · 03-06-2012, 13:25

quando ho copiato lo script da un blog, parlavano di usarlo per far vedere al crawler oltre i contenuti della propria pagina, anche quelli di una landing page esterna, non necessariamente di un altro, ma di mia proprietà, landing page particolarmente ottimizzata per le keywords di interesse. Confesso che la pulce nell'orecchio, me lo ha messa proprio un SEO, uno di quei 3 o 4 famosi, italiani che tutti conoscono. Durante il contatto mi ha detto:" Noi tra le varie tecniche che usiamo abbiamo quella di usare della nostre landing pages che, pur rimanendo esterne ad esso, "attacchiamo" al suo sito per posizionarlo Top 10 su Google".Francamente non ci avevo capito molto...avevo capito solo che il giorno che avessi smesso di pagare, "staccavano il cavo di collegamento" e sarei crollato....

**rigby76** · 03-06-2012, 13:35

Far vedere agli spider dei motori un contenuto diverso da quello servito agli altri utenti si chiama cloaking, ed è una delle tecniche più severamente penalizzanti. Fare cloaking basandosi solo sullo user-agent del client è un suicidio a mio parere, dato che i motori possono crawlare le pagine con user-agent diversi da quello generico per doversi motivi.

Discussione: Crawlare una pagina

Strumenti discussione

Ricerca discussione

Visualizza

Crawlare una pagina

Re: Crawlare una pagina

Permessi di invio