ciao!
mi è stato chiesto di creare un crawling che ricerchi determinati dati, all'interno di una lista di siti web.
questa lista comprende social:
- altri non specificati
siti web di ecommerce:
- subito.it
- portaportese
- kijiji
- altri non specificati
vari blog.
1)
non mi è stato richiesto un linguaggio in particolare, e quindi pensavo a python visto le varie librerie per lo scraping.
ma la prima domanda riguarda proprio il linguaggio / tecnologia da usare.
sono aperto a consigli.
ad esempio ho visto che molti fanno scraping usando phantomjs (http://phantomjs.org/).
2)
secondo voi com'è meglio muoversi vista la differenza di sorgenti?
ad esempio ho visto che ci stanno delle librerie per python specifiche per lo scraping di facebook e twitter.
meglio usare librerie singole, o trattare tutte le sorgenti allo stesso modo?