cosa vuol dire "non farlo entrare nei propri siti"? Non fargli analizzare le proprie pagine?
Penso che l'unica sia bloccarlo individuando una eventuale Robot Agent String del suo crawler oppure sulla base degli IP...

Non mi voglio spingere oltre. Googola.