Una premessa. La legge vieta a certi tipi di azienda o di professioni di farsi pubblicità, non di farsi un sito. Sono due cose diverse.
Il fatto che un sito compaia sui motori, non è farsi pubblicità, soprattutto se non hai fatto nulla perchè ciò avvenga.
Una casa farmaceutica, per esempio, deve sottostare alla legge che vieta la pubblicità dei farmaci, ma questo non significa che non possa avere un sito. Infatti molte case farmaceutiche il sito lo hanno.
Chiusa la premessa, vediamo la tua domanda.
Per impedire che il sito compaia in un motore italiano, puoi mettere il file robotx.txt indicando gli spider che non vuoi che visitino il sito. Non si tratta di una garanzia, però. Lo spider, se vuole, legge lo stesso.
Meglio sarebbe, mediante il cloaking intercettare gli spider passare un codice di sito inesistente. Ovviamente la gestione non è semplice in quanto devi conoscere e tenere aggiornata giorno per giorno la lista degli IP.
Per le directory, invece, non c'è modo. Se un editore umano vede il tuo sito, lo può inserire e tu non puoi fare nulla, anche legalmente, per impedirglielo.
Anche il non fare pagine in italiano non ti garantisce. Per assurdo, una directory se vuole può inserire un sito italiano tra altri inglesi. Non avrebbe senso, ma tu non puoi impedirlo.
Per riassumere. Puoi fare varie cose per limitare il fenomeno, ma non ci sono garanzie.