Consiglio creazione crawling

**fermat** · 22-05-2019, 17:22

ciao!

mi è stato chiesto di creare un crawling che ricerchi determinati dati, all'interno di una lista di siti web.
questa lista comprende social:

instagram
facebook
twitter
linkedin
altri non specificati

siti web di ecommerce:

subito.it
portaportese
kijiji
altri non specificati

vari blog.

1)
non mi è stato richiesto un linguaggio in particolare, e quindi pensavo a python visto le varie librerie per lo scraping.
ma la prima domanda riguarda proprio il linguaggio / tecnologia da usare.
sono aperto a consigli.
ad esempio ho visto che molti fanno scraping usando phantomjs (http://phantomjs.org/).

2)
secondo voi com'è meglio muoversi vista la differenza di sorgenti?
ad esempio ho visto che ci stanno delle librerie per python specifiche per lo scraping di facebook e twitter.
meglio usare librerie singole, o trattare tutte le sorgenti allo stesso modo?

**fermat** · 23-05-2019, 09:41

vi aggiungo un altro dettaglio.

quello che dovrei salvare sono gli indirizzi email degli utenti che hanno determinate requisiti (che non so ancora quali siano, ma suppongo nazione, sesso, ecc).
il che presuppone che debba scansionare i profili degli utenti.

a questo punto, ancora prima delle domande precedenti:
- è tecnicamente possibile??
- soprattutto è legale??

Discussione: Consiglio creazione crawling

Strumenti discussione

Ricerca discussione

Visualizza

Consiglio creazione crawling

Permessi di invio