Visualizzazione dei risultati da 1 a 6 su 6
  1. #1
    Utente di HTML.it
    Registrato dal
    Nov 2012
    Messaggi
    5

    Ricerca parola in pagina

    Salve devo analizzare 10 mila pagine web, le pagine sono di questo tipo

    h t t p: / / w w w . nomesito / id=100
    h t t p: / / w w w . nomesito / id=101

    l'id arriva a 10 mila

    Per prima cosa alcune di queste pagine appena ci entri hanno una redirect, devo stampare a video l'url di quelle che non hanno redirect.

    Secondo se non c'é redirect controllo che nel title sia presente la parola dottore esempio:

    <title>il giadino del dottore</title>


    se c'é stampo a video l'url



    Non ho idea se si possa fare e come farlo qualcuno mi da una mano grazie mille.

  2. #2

    Re: Ricerca parola in pagina

    Originariamente inviato da prost
    Salve devo analizzare 10 mila pagine web, le pagine sono di questo tipo

    h t t p: / / w w w . nomesito / id=100
    h t t p: / / w w w . nomesito / id=101

    l'id arriva a 10 mila

    Per prima cosa alcune di queste pagine appena ci entri hanno una redirect, devo stampare a video l'url di quelle che non hanno redirect.

    Secondo se non c'é redirect controllo che nel title sia presente la parola dottore esempio:

    <title>il giadino del dottore</title>


    se c'é stampo a video l'url



    Non ho idea se si possa fare e come farlo qualcuno mi da una mano grazie mille.

    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  3. #3
    Utente di HTML.it
    Registrato dal
    Nov 2012
    Messaggi
    5
    Ho trovato questo metodo per recuperare il title della pagina ma zero per la redirect


    <?php
    $url = 'http://html.it';
    preg_match("/<title>(.+)<\/title>/siU", file_get_contents($url), $matches);
    echo $title = $matches[1];
    ?>

  4. #4
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

  5. #5
    Utente di HTML.it
    Registrato dal
    Nov 2012
    Messaggi
    5
    per individuare le redirect ho usato un software e ho eliminato circa 7000 url.


    mi rimangono 3000 url di queste ho provato a controllare il <title> se era presente la parola ma il server non regge la scansione di tutte queste pagine al max 10 alla volta per cui non é realizzabile.


    era una cosa di questo genere


    <?php

    for ($i=0; $i<=10000; $i++){

    $url = "http://www.nomesito.it/id=$i";

    preg_match("/<title>(.+)<\/title>/siU", file_get_contents($url), $matches);
    $title = $matches[1];

    $a = explode(' ', $title);

    if(in_array("dottore", $a)) {

    echo "<a href='http://www.nomesito.it/id=$i>$i</a>" . "
    ";

    }
    }
    ?>




    Conoscete qualche software che prende in pasto gli url, recupera i title di queste pagine poi applico un filtro ed elimino quelle che non servono?

  6. #6
    devi aumentare il tempo di esecuzione massimo degli script php http://davidwalsh.name/increase-php-...-limit-ini_set
    IP-PBX management: http://www.easypbx.it

    Old account: 2126 messages
    Oldest account: 3559 messages

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.