Visualizzazione dei risultati da 1 a 5 su 5

Discussione: [wget] intero sito

  1. #1
    Utente di HTML.it L'avatar di gianiaz
    Registrato dal
    May 2001
    Messaggi
    8,027

    [wget] intero sito

    Ciao, sto provando a leggere il man di wget, ma non riesco a trovare le opzioni che mi servono.

    Devo scaricare un intero sito dicendo a wget di ignorare il file robot.txt presente sul sito che sto scaricando, altrimenti mi scarica solo un file index.html vuoto.

    ciao

  2. #2
    Utente di HTML.it L'avatar di alvinet
    Registrato dal
    Apr 2004
    Messaggi
    651
    usa httrack. Volendo puoi usare l'interfaccia web come GUI (webhttrack)
    www.sistemistiindipendenti.org
    alvin@jabber.linux.it

  3. #3
    Utente di HTML.it L'avatar di gianiaz
    Registrato dal
    May 2001
    Messaggi
    8,027
    httrack l'ho installato stamattina (adesso sono su win), e mi da questo errore nel file di log:
    (ovviamente nelle opzioni di spider ho messo la spunta su ignore robot.txt file).

    ciao

    codice:
    HTTrack3.33+swf launched on Mon, 10 Oct 2005 15:00:37 at http://www.w3schools.com/ +*.png +*.gif +*.jpg +*.css +*.js -ad.doubleclick.net/*
    (winhttrack -qiC0t%Ps0z%u0N0%I0H0%kf2A25000%f0#f -F "Mozilla/4.5 (compatible; HTTrack 3.0x; Windows 98)" -%F "" -%l "it, en, *" http://www.w3schools.com/ -O C:\offlinesite\w3school,C:\offlinesite\w3school +*.png +*.gif +*.jpg +*.css +*.js -ad.doubleclick.net/* -%A php3,php,php2,asp,jsp,pl,cfm,nsf=text/html )
    Information, Warnings and Errors reported for this mirror:
    note: the hts-log.txt file, and hts-cache folder, may contain sensitive information,
     such as username/password authentication for websites mirrored in this project
     do not share these files/folders if you want these information to remain private
    15:00:37 Info:  engine: init
    15:00:37 Info:  engine: start
    15:00:37 Info:  engine: check-html: primary/primary
    15:00:37 Info:  engine: preprocess-html: primary/primary
    15:00:37 Info:  engine: save-name: local name: www.w3schools.com/index.html -> www.w3schools.com/index.html
    15:00:37 Warning:  HTML file (0 bytes) retransfered due to lack of cache: www.w3schools.com/
    15:00:38 Info:  engine: transfer-status: link recorded: www.w3schools.com/ -> C:/offlinesite/w3school/www.w3schools.com/index.html
    15:00:38 Debug:  File checked by cache: www.w3schools.com
    HTTrack Website Copier/3.33 mirror complete in 1 seconds : 1 links scanned, 1 files written (0 bytes overall) [228 bytes received at 228 bytes/sec]
    (No errors, 1 warnings, 5 messages)
    15:00:38 Info:  engine: end
    15:00:38 Info:  engine: free
    Ciao

  4. #4
    Utente di HTML.it
    Registrato dal
    Jan 2001
    Messaggi
    7,691
    Un'altra semplice GUI è khttrack (l'ho installata su Mandrake 10.1 che con urpmi non trova webhttrack)
    ... S'i' fosse Giorgio, com'i' sono e fui,
    torrei le donne giovani e leggiadre:
    le vecchie e laide lasserei altrui....
    Non mandatemi PVT, mi dimentico sempre di leggerli ... mandatemi e-mail, se è il caso

  5. #5
    Utente di HTML.it L'avatar di alvinet
    Registrato dal
    Apr 2004
    Messaggi
    651
    Originariamente inviato da gianiaz
    httrack l'ho installato stamattina (adesso sono su win), e mi da questo errore nel file di log:

    codice:
    (No errors, 1 warnings, 5 messages)
    Errori non ce ne sono. Solamente un warning e 5 mess.. Quale è il problema?
    www.sistemistiindipendenti.org
    alvin@jabber.linux.it

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.