Un mio sito si è beccato la penalizzazione per contenuti duplicati, anche se questo è avvenuto in buona fede ed a mia insaputa, ossia per un bug del cms che uso.

Ma non è questo che mi interessa, dato che al 99% ho appurato la causa della penalizzazione.

Quello che voglio sapere è come uscirne e penso di aver trovato il sistema ma ho bisogno di un aiuto.

In pratica per ogni pagina google mi ha associato due o più url diverse derivate da un mod_rewrite (a suo tempo) non ottimizzato.
Un esempio:
codice:
miosito.it/categoria/nome_pagina.htm
miosito.it/index.php?=categoria/nome_pagina.htm
Oppure:
codice:
miosito/categoria/pagina1.htm
miosito/categoria/pagina2.htm
miosito/categoria/pagina3.htm
Questo ha generato una enorme quantità di contenuti duplicati identici.

-Sfruttando il robots.txt vorrei risolvere il tutto, secondo voi è una soluzione coerente?

Io pensavo di escludere le url non rewrittate così facendo:
codice:
User Agent: *
Disallow: /index.php?=categoria/
Disallow: /categoria/
-Così se non sbaglio google non indicizzerà mai più le url che iniziano con miosito.it/index.php?=categoria/ e anche quelle che iniziano con miosito/categoria/ giusto?

Avevo letto che google dava la possibilità di usare questa espressione Disallow: ?*/ per dirgli di escludere tutte le url che contengono il punto interrogativo (e che quindi non sono mod_rewrittate) ma dovrebbe essere una tecnologia proprietaria solo dello zio G e quindi non valida con altri mdr, giusto?

Ovviamente ho già fatto richiesta di esclusione per quelle url.

Grazie e scusate se ho sbagliato sezione, se il tema è già stato trattato ed ho scritto un poema.