Cattura codice HTML non autorizzata

**rescueme** · 12-10-2011, 09:23

Ho creato un programma che cattura il codice HTML delle pagine di cui gli passo l'indirizzo, usando WebRequest e WebResponse. Accade però che per alcuni siti mi venga restituito il codice di errore 401 sebbene aprendo lo stesso indirizzo con qualunque browser la pagina si vede perfettamente. Coma mai accade questo? I gestori del sito riescono ad accorgersi che la richiesta proviene da un programma e non da un browser? Come si può impostare il server in modo che si accorga di questo?

**GabbOne** · 12-10-2011, 11:42

La sparo li ..
è possibile per un server leggere lo User Agent del client che richiede la risorsa. Tenendo conto che nello User Agent viene specificato anche il tipo di browser che ha effettuato la richiesta allora è possibile per un server effettuare un taglio sulle richieste in ingresso.

Ovviamente non so se ti trovi in questo caso specifico.

**pietro09** · 12-10-2011, 12:47

si può avere il link ad un sito simile in modo da fare delle prove?

**rescueme** · 12-10-2011, 16:46

Originariamente inviato da pietro09
si può avere il link ad un sito simile in modo da fare delle prove?

A me non funziona con DeaStore, ad esempio con questa pagina: http://www.deastore.com/libro/letter...806200169.html

**pietro09** · 12-10-2011, 20:35

aveva ragione GabbOne

è bastato aggiungere alla richiesta

request.UserAgent = "Mozilla/5.0 (Windows NT 6.1; rv:7.0.1) Gecko/20100101 Firefox/7.0.1"

e funziona perfettamente

**rescueme** · 13-10-2011, 09:42

Funziona! Grazie!!!

**Gluck74** · 14-10-2011, 16:05

Originariamente inviato da GabbOne
La sparo li ..
è possibile per un server leggere lo User Agent del client che richiede la risorsa. Tenendo conto che nello User Agent viene specificato anche il tipo di browser che ha effettuato la richiesta allora è possibile per un server effettuare un taglio sulle richieste in ingresso.

Ovviamente non so se ti trovi in questo caso specifico.

e hai sparato bene.
Alcuni siti controllano le richieste per bloccare alcuni (o tutti) i robot di scanning.
Per superare questo controllo, bisogna effettuare una richiesta simulando alla perfezione un client browser.
Consiglio di installare un tool per verificare le richieste e le risposte HTTP
Esempio LiveHTTPHeaders per FireFox

**GabbOne** · 15-10-2011, 08:23

sicuramente utile

Discussione: Cattura codice HTML non autorizzata

Strumenti discussione

Ricerca discussione

Visualizza

Cattura codice HTML non autorizzata

Permessi di invio