Visualizzazione dei risultati da 1 a 7 su 7

Discussione: Crawlare una pagina

  1. #1
    Utente di HTML.it
    Registrato dal
    May 2009
    Messaggi
    192

    Crawlare una pagina

    In rete ho trovato questo script che fa uso di php e curl per crawlare una pagina.
    Per utilizzare questa semplice funzione basterà chiamare la funzione getContent con argomento l’url completo della pagina da ricevere.
    Cosa ne pensate?

    Codice PHP:
    <?php
    $someUA 
    = array (
    "Mozilla/5.0 (Windows; U; Windows NT 6.0; fr; rv:1.9.1b1) Gecko/20081007 Firefox/3.1b1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.1) Gecko/2008070208 Firefox/3.0.0",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.19 (KHTML, like Gecko) Chrome/0.4.154.18 Safari/525.19",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 Safari/525.13",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727; .NET CLR 3.0.04506.30)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.40607)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.1; .NET CLR 1.0.3705; Media Center PC 3.1; Alexa Toolbar; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/45.0 (compatible; MSIE 6.0; Windows NT 5.1)",
    "Mozilla/4.08 (compatible; MSIE 6.0; Windows NT 5.1)",
    "Mozilla/4.01 (compatible; MSIE 6.0; Windows NT 5.1)");
    function 
    getRandomUserAgent ( ) {
        
    srand((double)microtime()*1000000);
        global 
    $someUA;
        return 
    $someUA[rand(0,count($someUA)-1)];
    }
    function 
    getContent ($url) {
     
        
    // Crea la risorsa CURL
        
    $ch curl_init();
     
        
    // Imposta l'URL e altre opzioni
        
    curl_setopt($chCURLOPT_URL$url);
        
    curl_setopt($chCURLOPT_HEADER0);
        
    curl_setopt($chCURLOPT_USERAGENTgetRandomUserAgent());
        
    curl_setopt($chCURLOPT_RETURNTRANSFER,true);
        
    // Scarica l'URL e lo passa al browser
        
    $output curl_exec($ch);
        
    $info curl_getinfo($chCURLINFO_HTTP_CODE);
        
    // Chiude la risorsa curl
        
    curl_close($ch);
        if (
    $output === false || $info != 200) {
          
    $output null;
        }
        return 
    $output;
     
    }
    ?>

  2. #2
    Utente di HTML.it
    Registrato dal
    Jul 2002
    Messaggi
    251
    Si tratta di una tecnica di Web Scraping penalizzata da Penguin perchè, se inserita in una pagina, all'atto della visita della stessa farebbe vedere allo spider una cosa diversa da quella che vedono gli utenti.

  3. #3
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913

    Re: Crawlare una pagina

    Originariamente inviato da nikotina
    Cosa ne pensate?
    Di che tipo di parere hai bisogno? Cosa intendi fare con questa funzione? Tieni presente che se le tue richieste sono di carattere tecnico, la sede più giusta dove porle è il forum PHP.
    estremizzo, banalizzo e polemizzo!

    Hai letto le FAQ sui Motori di Ricerca?

  4. #4
    Utente di HTML.it
    Registrato dal
    May 2009
    Messaggi
    192
    Il parere era sempre inerente al SEO, argomento di questo forum:conviene, o per lo meno è rischioso ma non troppo, usare questa tecnica per migliorare il posizionamento di un sito?

  5. #5
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913
    Non mi è chiaro quale sia la tecnica che intendi usare. Hai postato solamente una funzione di lettura del contenuto della pagina di un altro sito: e poi?

    Va da se che ogni tecnica che porti alla duplicazione di contenuti di altri, non è una tecnica che può portare beneficio ad un sito diverso da uno spam-engine. Senza contare ovviamente considerazioni sulla legittimità di una cosa del genere.
    estremizzo, banalizzo e polemizzo!

    Hai letto le FAQ sui Motori di Ricerca?

  6. #6
    Utente di HTML.it
    Registrato dal
    May 2009
    Messaggi
    192
    quando ho copiato lo script da un blog, parlavano di usarlo per far vedere al crawler oltre i contenuti della propria pagina, anche quelli di una landing page esterna, non necessariamente di un altro, ma di mia proprietà, landing page particolarmente ottimizzata per le keywords di interesse. Confesso che la pulce nell'orecchio, me lo ha messa proprio un SEO, uno di quei 3 o 4 famosi, italiani che tutti conoscono. Durante il contatto mi ha detto:" Noi tra le varie tecniche che usiamo abbiamo quella di usare della nostre landing pages che, pur rimanendo esterne ad esso, "attacchiamo" al suo sito per posizionarlo Top 10 su Google".Francamente non ci avevo capito molto...avevo capito solo che il giorno che avessi smesso di pagare, "staccavano il cavo di collegamento" e sarei crollato....

  7. #7
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913
    Far vedere agli spider dei motori un contenuto diverso da quello servito agli altri utenti si chiama cloaking, ed è una delle tecniche più severamente penalizzanti. Fare cloaking basandosi solo sullo user-agent del client è un suicidio a mio parere, dato che i motori possono crawlare le pagine con user-agent diversi da quello generico per doversi motivi.
    estremizzo, banalizzo e polemizzo!

    Hai letto le FAQ sui Motori di Ricerca?

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.