Visualizzazione dei risultati da 1 a 4 su 4
  1. #1
    Utente di HTML.it
    Registrato dal
    Sep 2007
    Messaggi
    102

    uploadjockey.com - Estrarre i contenuti MegaUpload

    Ciao a tutti ecco il mio problema

    Ho una serie di link presso il sito file hosting http://www.uploadjockey.com

    Quello che mi propongo di fare è esaminare in serie i contenuti delle varie pagine per estrarre i link presso MegaUpload

    Ecco un esempio di Link
    http://www.uploadjockey.com/download....avi.part8.rar

    Il problema però, quando vado a a scaricare la pagina, questa è totalmente in caratteri strani, come fosse codificata
    Ho esaminato l'header di Firefox e mi sembra normalissimo, una GET normale e un link Http

    http://www.uploadjockey.com/download....avi.part8.rar

    GET /download/4964297/MOVE_ST09_CD2.avi.part8.rar HTTP/1.1
    Host: www.uploadjockey.com
    User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 (.NET CLR 3.5.30729)
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding: gzip,deflate
    Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
    Keep-Alive: 300
    Connection: keep-alive

    HTTP/1.x 200 OK
    Date: Tue, 27 Oct 2009 14:52:30 GMT
    Server: Apache/2.2.11 (Unix) mod_ssl/2.2.11 OpenSSL/0.9.8e-fips-rhel5 mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 PHP/5.2.9 mod_perl/2.0.4 Perl/v5.8.8
    X-Powered-By: PHP/5.2.9
    Set-Cookie: PHPSESSID=b0080044042411da07522ca19dcb5847; path=/
    Expires: Thu, 19 Nov 1981 08:52:00 GMT
    Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
    Pragma: no-cache
    Content-Encoding: gzip
    Vary: Accept-Encoding
    Content-Length: 4994
    Keep-Alive: timeout=5, max=100
    Connection: Keep-Alive
    Content-Type: text/html
    Ho provato l'approccio in due modi diversi. Con la classe HttpURLConnection e con la socket manuale ma entrambi ritornano risultati codificati

    Versione Socket
    http://pastebin.com/m4d6bf05d

    Versione HttpURLConnection
    http://pastebin.com/m14541d1a

    Proprio non capisco
    Grazie per l'aiuto

  2. #2
    Utente di HTML.it L'avatar di andbin
    Registrato dal
    Jan 2006
    residenza
    Italy
    Messaggi
    18,284

    Re: uploadjockey.com - Estrarre i contenuti MegaUpload

    Originariamente inviato da Pegasys
    Ecco un esempio di Link
    http://www.uploadjockey.com/download....avi.part8.rar

    Il problema però, quando vado a a scaricare la pagina, questa è totalmente in caratteri strani, come fosse codificata
    E' codificato con encoding gzip.

    Content-Encoding: gzip

    Se vuoi decodificarlo programmaticamente, devi prima "incapsulare" il InputStream in un java.util.zip.GZIPInputStream.
    Andrea, andbin.devSenior Java developerSCJP 5 (91%) • SCWCD 5 (94%)
    java.util.function Interfaces Cheat SheetJava Versions Cheat Sheet

  3. #3
    Utente di HTML.it
    Registrato dal
    Sep 2007
    Messaggi
    102
    Ho cambiato così

    GZIPInputStream gzip = new GZIPInputStream(http.getInputStream());
    BufferedReader rd = new BufferedReader(new InputStreamReader(gzip));

    e funziona grazie

  4. #4
    Utente di HTML.it
    Registrato dal
    Sep 2007
    Messaggi
    102
    Questo l'ho fatto nella modalità HTTP

    Invece nella modalità Socket mi dice questo

    java.io.IOException: Not in GZIP format
    at java.util.zip.GZIPInputStream.readHeader(Unknown Source)
    at java.util.zip.GZIPInputStream.<init>(Unknown Source)
    at java.util.zip.GZIPInputStream.<init>(Unknown Source)
    at JOCKEY_Socket.main(JOCKEY_Socket.java:42)

    Penso che sia perchè la socket tiene uniti sia l'header di risposta che il corpo del messaggio
    C'è modo per risolvere?

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.