Solitamente il robots.txt viene utilizzato per escludere singoli file o interi domini dalla spiderizzazione dei motori di ricerca.
Il forum che ci ospita esclude tramite robots.txt tutto il sottodominio forum.html.it ma effettuando alcune ricerche in google delle pagine compaiono nelle serps.
Esempi:
http://www.google.it/search?hl=it&q=...nG=Cerca&meta=
http://www.google.it/search?q=site:f...t&lr=&filter=0
Un comportamento strano, sembra vengano indicizzate le pagine linkate dalla home di html.it...

Rispondi quotando
