Ciao, ho costruito una piccola applz. che e' in grado di grabbare indirizzi mail dalle pagine web, ovunque essi siamo posizionati (anche nei css o nei file js), selezionando gli indirizzi web attraverso una ricerca su google.com
L'applz. e' anche in grado di recuperare indirizzi tipo
mail @ dominio .it
mailNOSPAM@dominio.it
mail\@\dominio\.it
e altre cose di questo tipo.
In una mezza giornata ho recuperato circa 10000 indirizzi mail sintatticamente validi parsando 250 siti web (con comunita', news, etc).
L'applz. e' scritta con la bash, le utilita' di sistema di UNIX, quindi e' goffa, priva di controlli, inefficiente, ma se ne frega del file robot e si spaccia per IE6, nelle statistiche appare quindi come un browser ... un utente che fa click (un po' nervosamente, ma fa click).
Riscrivendola in C, in Java o in un altro linguaggio piu' performante (o magari dedicandovi piu' tempo: io l'ho scritta in due ore) i risultati sarebbero esponenziali.
Come si puo' evitare che applz. simili possano visitare le ns. pagine? a quale livello si puo' agire?
Ho pensato agli indirizzi IP, ma anche quelli... basta una connessione con IP dinamico... e allora?

Rispondi quotando
