Visualizzazione dei risultati da 1 a 8 su 8

Discussione: Comando per wget

  1. #1
    Utente di HTML.it L'avatar di Violet sky
    Registrato dal
    Aug 2002
    Messaggi
    1,046

    Comando per wget

    Vorrei usare wget da Knoppix per scaricare un intero sito. Più precisamente, c'è una pagina di index da scaricare, più tutti i link in questa pagina che vanno all'interno del sito stesso, più tutti i link dalle pagine in questione che vanno a altri siti ma solo per un passo.
    Insomma... pagina index, pagine linkate dalla index, pagine linkate dalle altre pagine e basta.
    Col man ci ho già provato e ci ho litigato furiosamente
    Che comando devo dare per eseguire quest'azione?
    Ah, mi interessano solo documenti html, immagini jpg e gif... tutto il resto non mi serve scaricato.

    Grazie mille
    Non è vero che gli angeli non esistono... ci sono, e sono travestiti da esseri umani... e io sto insieme a uno di loro

  2. #2
    Utente di HTML.it L'avatar di Ilmalcom
    Registrato dal
    Oct 2002
    Messaggi
    1,345
    Non vorrei dire una cagata perchè è da molto che non lo faccio, ma wget -m ?? Purtroppo non ho tempo di controllare

  3. #3
    a spanne:

    wget -xErkp --level=10 nomesito

    il level lo devi decidere tu in base alla profondita' dei link del sito

    se pero' ha delle protezioni contro i robots ti attacchi
    Sotto la panza la mazza avanza.

  4. #4
    Utente di HTML.it L'avatar di alkat
    Registrato dal
    Jan 2004
    Messaggi
    4,190
    http://linux.html.it/tips/tips_13.htm

    Un programma che ci viene incontro per fare velocemente un mirror di un sito è wget. Infatti l'opzione -m include una serie di opzioni standard per la copia speculare di interi siti. Può anche essere utile usare l'opzione -b per far eseguire wget in background. Esempio:

    lnxbox1:~# wget -m -b http://www.html.it

    Si occuperà di fare un mirror del nostro caro sito.
    per dettagli qui:
    http://www.chicercatrova2000.it/Linux/DownLoader.asp
    Passa a Windows, Linux, Mac, BSD, Atari, Amiga, Unix o alle schede perforate. Fa come ti pare.
    ***
    "There's probably no God. Now stop worrying and enjoy your life" - Atheist Bus in England

  5. #5
    Utente di HTML.it L'avatar di Violet sky
    Registrato dal
    Aug 2002
    Messaggi
    1,046
    Ok... mi sono dimenticato un dettaglio: devo impostarlo in modo che si connetta tramite un proxy... che comando è?

    Edit: ho visto nel man che devo usare http_proxy=<proxy>... solo che non so come usarlo, dice che lo devo settare come environment variable...

    :master:
    Non è vero che gli angeli non esistono... ci sono, e sono travestiti da esseri umani... e io sto insieme a uno di loro

  6. #6
    Utente di HTML.it L'avatar di osiryx
    Registrato dal
    Dec 2002
    Messaggi
    1,021
    Il man di wget mi sembra abbastanza esplicito

    Ok... mi sono dimenticato un dettaglio: devo impostarlo in modo che si connetta tramite un proxy... che comando è?

    Edit: ho visto nel man che devo usare http_proxy=<proxy>... solo che non so come usarlo, dice che lo devo settare come environment variable...
    ~/.wgetrc
    Avevo una ragazza, dovevamo sposarci, ma c'era un conflitto religioso.
    Lei era atea ed io agnostico. Non sapevamo *senza* quale religione
    educare i figli.
    -- Woody Allen

  7. #7
    Utente di HTML.it L'avatar di Violet sky
    Registrato dal
    Aug 2002
    Messaggi
    1,046
    Ok, ora riesco a farlo funzionare per i siti normali.
    Solo che non mi funziona in questo --> www.everything2.com
    Anche se metto il livello a "inf" mi scarica solo index.html e robots.txt...
    Qualche suggerimento?
    Non è vero che gli angeli non esistono... ci sono, e sono travestiti da esseri umani... e io sto insieme a uno di loro

  8. #8
    Originariamente inviato da Caleb
    ...
    se pero' ha delle protezioni contro i robots ti attacchi
    non so... wget ha anche l'opzione robots=off e con me ha funzionato: l'ho usato una volta ed è stato l'unico modo per scaricare tutti i (centinaia di) file di una directory (...oltre a modificare l'user agent, ecc...)

    maggiori info
    http://www.delorie.com/gnu/docs/wget/wget_41.html

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.