Visualizzazione dei risultati da 1 a 5 su 5
  1. #1

    WebScraping e RUBY... Chi mi può aiutare?

    Ciao a tutti,
    mi sto' avvicinando a RUBY perché dovrei fare un po' di WebScraping ho realizzato qualcosina di interessante con scRUBYt! ma, vista la scarsa documentazione ed assistenza sto' pensando che forse dovrei migrare verso qualche altra soluzione.
    So che scRUBYt! si appoggia a hpricot e mechanize come librerie...
    Qualcuno di voi ha esperienza in materia e mi puo' aiutare a partire?
    Grazie
    Ciao
    Luca


  2. #2
    Se devi effettuare semplice scraping "passivo", ovvero accedere ad una pagina e scaricarne i dati senza interagire con la pagina, scRUBYt non ti porta alcun vantaggio rispetto ad usare, ad esempio hpricot o nokogiri.

    Personalmente sono passato da hpricot a nokogiri in quanto quest'ultimo è più performante ed attivamente mantenuto.

  3. #3
    Ciao weppos,
    avevo aperto due discussioni perché in una volevo comunque continuare a parlare di scRUBYt! mentre nell'altra sentire le alternative.. ;-)

    Mi hanno suggerito Nokogiri ma andando sul sito ufficiale ho trovato poco materiale, dal punto di vista di esempi pratici non banali.

    Sapresti indirizzarmi verso un sito in cui c'è una guida o qualcosa di interessante per approfondire?
    Tu come ti sei avvicinato a Nokogiri?

    TI ringrazio
    Ciao
    Luca


  4. #4
    Tu come ti sei avvicinato a Nokogiri?
    Nokogiri è per certi versi un'evoluzione di Hpricot. Conoscendo Hpricot, è stato molto semplice passare a Nokogiri.

    Inoltre Nokogiri si basa sui selettori CSS ed XPath e lavora su un modello assimilabile al DOM. Conoscendo la materia, Nokogiri è facilmente assimilabile.

    La documentazione di Nokogiri è molto ampia, partendo dal sito ufficiale http://nokogiri.org/, ma presuppone che tu sappia alcuni concetti di base della manipolazione di un documento HTML/XML, ovvero:

    * cosa sia il DOM
    * cosa siano nodi, elementi, documenti
    * cosa sia un selettore
    * i principali selettori CSS e pseudoclassi se vuoi usare CSS
    * la sintassi XPath se vuoi usare Xpath

    Se questi argomenti ti giungono nuovi, probabilmente dovresti prima avere una infarinatura di base su questi. Non è necessario essere un mago della manipolazione di un DOM, ma almeno sapere che un HTML è rappresentato come un albero con nodi, etc...

    La documentazione di HPricot ha molti più esempi, se ti può essere utile per capire http://wiki.github.com/hpricot/hpricot/
    Evita però di studiare per esempi o alla fine saprai applicare solo quelle 4 formulette degli esempi e nulla più.

    Per una introduzione su Nokogiri
    http://www.engineyard.com/blog/2010/...with-nokogiri/

  5. #5
    Ottima dritta!
    Ho dato un'occhiata veloce e mi sa che partendo dal secondo link mi creo delle basi per applicare il tutto.
    Ti ringrazio molto, sei stato molto preciso ;-)

    Grazie!

    Magari settimana prossima dopo un po' di tentativi e studio se avrò dei dubbi amplierò ancora questo post quindi, per ora lasciamolo ancora attivo!!

    Ciao e buon week!


Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.