Non capisco, su un mio sito avevo messo il robots.txt (c'e' da anni):
User-agent: *
Disallow: /cgi-bin/
Stavo controllando e sotto G con il comando site: mi sono trovato elencate migliaia di url tipo miosito.com/cgi-bin/vai?
Che abbia sempre affermato che i motori se ne fregano dei robots.txt e' vero, ma su una cosa scema come il mio sito e un dir cgi-bin mi sembrava strano. Allora ho verificato piu' attentamente ed ecco cosa ho notato:
miosito.com/cgi-bin/vai?https://sito1.com
miosito.com/cgi-bin/vai?https://sito2.com
miosito.com/cgi-bin/vai?https://sito3.com
miosito.com/cgi-bin/vai?https://sito100.com
miosito.com/cgi-bin/vai?https://sito1000.com
Tutte le url esterne che vengono lanciate tramite lo script vai.php sono delle https. Su centinaia di migliaia di url eseguite tramite il programmino solo le 3 o 4 mila che iniziano con https hanno "forzato" il bot ad ignorare il robots.txt. Notare che non parlo di https://miosito.com/vai?http://sito1.com ma di un normale http://miosito.com/cgi-bin/vai?https://sito1.com
Questa cosa e' interessantissima. Perche' uno spider dovrebbe infrangere le sue stesse regole per spiderizzare una url che contiene un pezzo di stringa con https? Forse e' un baco, ma sarebbe di quelli grossi.
Adesso ne sparo una da utonto. Se verifico http://www.miosito.com/robots.txt vedo il mio robots.txt. Ovviamente se scrivo https://www.miosito.com/robots.txt, la 443 non e' abilitata su quel sito e ho un code 404. Allora mi chiedo, non e' che lo spider di G vede nell'url l'https, non distingue tra inizio url e seguito della stessa ed allora ragiona che https://www.miosito.com/robots.txt non esiste ed pertanto spiderizza l'url? Se fosse cosi' ci sarebbe da divertirtsi.
Aspettando vostri lumi su questa cosa mi e' venuto un altro dubbio, G trattera' alla stessa stregua la home di http://miosito.com rispetto quella di https://miosito.com? Spam con url hpps:// ne ho visto poco e chi mi dice che questo tipo di url non sia de-penalizzata in qualche modo?

Rispondi quotando

