Visualizzazione dei risultati da 1 a 6 su 6
  1. #1

    aiuto per crawler / spider in perl

    ciao a tutti, sono un novizio per quanto riguarda la programmazione, tuttavia siccome devo raccogliere per un progetto dell'università una grande quantità di dati da un sito mi è stato consigliato di creare un programma che andasse a "leggere" tali informazioni dalle pagine web.
    potreste darmi qualche spunto per cominciare o indicarmi qualche manuale/tutorial che potrei seguire?
    grazie infinite
    ps: se c'è bisogno posso darvi anche maggiori dettagli, per ora posso dirvi che le pagine da cui dovrei ricavare i dati sono .asp

  2. #2
    Se intendi usare il linguaggio Perl, puoi utilizzare i moduli LWP la cui descrizione trovi su:

    http://search.cpan.org/~gaas/libwww-perl-5.813/
    Marco Allegretti
    shishii@tiscalinet.it
    Lang: PERL, PHP, SQL.
    Linux user n° 268623 Fedora Core 10, Fedora Core 6, Debian Sarge on mips

  3. #3
    esatto pensavo proprio al perl...
    intanto grazie della risposta, più che altro non saprei dove andare a cercare tra quei moduli che mi hai indicato (sono abbastanza niubbo) per cui provo a darti qualche indicazione sperando di esser chiaro:
    dunque, di base mi servirebbe estrarre da questa pagina tutti i link (i numeri) in modo da averli poi su un file di testo, nello stesso ordine in cui compaiono nella pagina.
    il comando wget di linux mi è stato poco d'aiuto (anche perché la pagina essendo asp non viene salvata sul computer tutta, ma solo la "cornice")... :rollo:
    detto questo, sapresti darmi qualche dritta?
    grazie infinite

  4. #4
    Moderatore di Sicurezza informatica e virus L'avatar di Habanero
    Registrato dal
    Jun 2001
    Messaggi
    9,782
    oddio non starei a scomodare uno script per fare quel lavoro...
    Sia Firefox che Opera possono estrarti direttamente tutti i link di una pagina.

    In Firefox:
    Strumenti->informazione sulla pagina->Scheda "link"

    In Opera:
    Strumenti->collegamenti

    In entrambi i casi da qui puoi selezionare in blocco gli indirizzi che ti interessano copiarli e poi incollarli nel tuo editor di testo preferito.
    Leggi il REGOLAMENTO!

    E' molto complicato, un mucchio di input e output, una quantità di informazioni, un mucchio di elementi da considerare, ho una quantità di elementi da tener presente...
    Drugo

  5. #5
    ehm..io uso firefox ma non riesco a trovare la scheda "link"..vabbè sarà la mia versione che è beta, cmq il problema è che questa operazione la dovrei ripetere per più di 600 pagine, per questo avevo pensato a uno script!
    altri aiuti?

  6. #6
    Utente di HTML.it
    Registrato dal
    Sep 2001
    Messaggi
    21,188
    Se vuoi una RE per estrarre un link da una riga, potrebbe essere:
    /\<a.+?href=([^\s]).+?\>(.+?)\</
    Poi in $1 ti trovi l'indirizzo del link e in $2 trovi il suo contenuto

    Nota1: non lo ho testato.
    Nota2: quella RE estrae un solo link da ogni riga e non trova link spezzati su piu` righe (ho dato un'occhiata veloce alla pagina linkata e mi pare che sia valido per quella pagina). Con un po' di prove e esperienza con le RE si puo` modificare per raccogliere piu` di un link per riga e/o per raccogliere link spezzati su piu` righe.
    Nuova politica di maggiore severita` sui titoli delle discussioni: (ri)leggete il regolamento
    No domande tecniche in messaggi privati

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.