PDA

Visualizza la versione completa : download siti internet con coockie


Wakka
09-04-2009, 12:08
Ciao a tutti,
avrei la necessita' di scaricare, tramite kubuntu, un sito internet.
Si limitasse solo a questo, potrei usare wget con le apposite opzioni, ma il fatto e' che all'inizio del sito mi devo autenticare con nick e password tramite coockie, e se metto lo stesso link in wget non me lo salva uguale ma mi salva solamente la pagina del login...

Avete qualche consiglio da darmi?
Grazie mille in anticipo!!

paolino_delta_t
09-04-2009, 12:23
wget supporta appieno http 1.1, quindi autenticazione e cookie

guarda nel manuale di wget i parametri user, password e load-cookies

in alternativa puoi installare httrack

mykol
09-04-2009, 13:45
prova httrack, eventualmente con la sua gui (che non ricordo comre si chiama). Ti scarica il sito rendendolo navigabile sul tuo HD, esatatmente come su internet, ovviamente modificando i link.

sylvaticus
10-04-2009, 13:34
..voto per la risposta di mykol.. httrack quello che ti serve..

Wakka
10-04-2009, 18:58
ho installato httrack, ma solo la versione command line, l'altra non so come si chiama!
ed in ogni caso, come mi ha suggerito il primo utente non ho risolto. metto nick e pwd corretti, e anche i nomi dei campi in cui inserire i dati, ma non funge ugualmente.

Wakka
11-04-2009, 12:57
ho installato anche webhttrack, ma io non ho capito come posso effettuare il login.
ho provato a cercare qualche plugin di firefox, ma nulla da fare.
avete qualcos'altro da consigliarmi?
ho provato a cercare tra le opzioni di wget, ma nulla ho trovato =(

mykol
11-04-2009, 21:36
come ti devi autenticare ? Non devi entrare nel sito, devi semplicemente rispondere alle poche domande che httrack ti pone quando lo lanci.
Ovviamente se un sito con DB o con linguaggi particolari per cui le varie pagine web vengono create solo quando il browser le richiede, oppure se l'admin ne ha bloccato lo scaricamento, non le puoi scaricare ...

Wakka
12-04-2009, 10:42
Originariamente inviato da mykol
come ti devi autenticare ? Non devi entrare nel sito, devi semplicemente rispondere alle poche domande che httrack ti pone quando lo lanci.
Ovviamente se un sito con DB o con linguaggi particolari per cui le varie pagine web vengono create solo quando il browser le richiede, oppure se l'admin ne ha bloccato lo scaricamento, non le puoi scaricare ...
devo autenticarmi tramite un classico form di login con user e password. la pagina e' in php se potesse servire.
ed una volta autenticato, e creato il cookie, posso vedere tutto quello che c'e' oltre.
io ho provato a seguire webhttrack, ma non ho trovato alcuna voce che potesse farmi comodo.

mykol
12-04-2009, 14:46
forse non ci siamo capiti ...
Per scaricare un sito non devi "entrarci", devi semplicemente avviare httrack, rispondere alle semplici domande che ti pone, scrivendo, tra l'altro l'indirizzo http del sito da scaricare.

Come ti ho detto, non possibile scaricare tutti i siti: i webmaster possono porre delle protezioni che impediscono l'operazione. Inoltre molti siti, sopratutto quelli che fanno largo uso di database, php o altri linguaggi lato server, in pratica non si possono scaricare in quanto fisicamente .... non esistono.

Cio, le pagine html come noi le vediamo quando ci colleghiamo, non esistono sul server, ma vengono create solo all'atto in cui giunge una richiesta http dal browser che gira sul pc che vi si connette, quindi non possono essere scaricate per il semplice motivo che sul server ... non ci sono.

Prova con hhtrack a scaricare un semplice sitarello e poi qualcuno pi complesso che fa largo uso di tecnologie "server side" e te ne renderai conto tu stesso.

Wakka
12-04-2009, 18:52
quello che tu dici lo so, ho programmato in php per parecchio tempo,
ma se io gli dico che all'indirizzo www.indirizzo.com/login.php c'e' una pagina di login e superata la quale con gli appositi dati puo' scaricare il restante sito non si puo'?
i webmaster possono mettere protezioni tipo quelle esistenti per gli spider, ma se non erro si puo' modificare l'user agent di httrack con uno dei comuni browser e il problema non si pone. non credo che comunque il sito che sto scaricando adotti questo problema.

Loading