Blocco da Robots.txt: Google indicizza lo stesso

**Tecnology** · 13-06-2012, 14:27

Mi trovo una situazione anomala ultimamente su qualche sito: abbiamo messo il file robots.txt (ovviamente nella root) con le seguenti istruzioni
User-agent: *
Disallow: /directory_da_bloccare/

Noto che in alcuni casi mi indicizza solo la pagina principale della directory e non le sotto pagine, in altri casi mi indicizza un po' di pagine. Ma dovrebbe essere bloccato! Non dovrebbe riuscire ad indicizzare pagine se c'è il blocco del robots.txt!!

So che nella SERP del compando site eventuali url senza la descrizione e altri elementi sono url di cui in realtà non ha indicizzato i contenuti ma trovo anche url indicizzate con la copia di cache disponibile.

Se provo a chiedere la rimozione di queste url Google mi accetta la rimozione, significa che secondo lui sono pagine bloccate, ma perché poi me le indicizza?
Su questi siti ultimamente sto riscontrando qualche problema, secondo me dovuto a duplicazione dei contenuti proprio a causa di queste pagine che non dovevano essere indicizzate.

**Bellu** · 22-06-2012, 22:43

Prova a sostituire l'asterisco con Googlebot, ovvero il bot specifico.
Comunque mi sembra alquanto strana questa cosa, io ho sempre usato l'asterisco e non ho mai avuto problemi.

Spero di averti aiutato.

un saluto

**Sostanza** · 29-06-2012, 13:06

Anche io ho notato la stessa cosa segnalata da Tecnology: in più di un sito ho bloccato tramite robots.txt l'accesso alla cartella che contiene il backoffice del cms, perchè non ha senso che venga indicizzata, ma facendo una ricerca inurl: su Google ho trovato ancora dei risultati...
se qualcuno ha altre soluzioni ci faccia sapere, grazie!

**Bellu** · 29-06-2012, 15:01

Mah non so che dire... Provate a scrivere sul forum webmaster di Google, se siete fortunati e qualcuno del Team vi risponde sapranno darvi risposte sicuramente più esaustive.

**Sostanza** · 29-06-2012, 15:47

Credo che la chiave sia nello "slash" alla fine della cartella nel robots.txt.
Mi spiego:
Google nella guida dice:

Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra (/).
Disallow: /directory-indesiderata/

Ho fatto un test nei miei strumenti per webmaster (sezione URL bloccati) e se metto lo slash alla fine della cartella vedo effettivamente come risultato "Bloccato dalla riga 2. Rilevato come directory; file specifici possono avere diverse limitazioni".
Se invece tolgo lo slash, il risultato è "autorizzato" perchè probabilmente fa riferimento ai file il cui percorso inizia con il nome della cartella...

Probabilmente l'unico modo di non far indicizzare la pagina principale è inserire al suo interno un meta tag noindex, io proverò a far così, vi farò sapere...

**seokey** · 29-06-2012, 18:17

Google legge tutto perché non è stato progettato solo per essere un innocente motore di ricerca

Discussione: Blocco da Robots.txt: Google indicizza lo stesso

Strumenti discussione

Ricerca discussione

Visualizza

Blocco da Robots.txt: Google indicizza lo stesso

stesso problema

Riporto un concetto forse utile

Permessi di invio