G e robots.txt

**agoago** · 22-07-2004, 03:05

Non capisco, su un mio sito avevo messo il robots.txt (c'e' da anni):

User-agent: *
Disallow: /cgi-bin/

Stavo controllando e sotto G con il comando site: mi sono trovato elencate migliaia di url tipo miosito.com/cgi-bin/vai?
Che abbia sempre affermato che i motori se ne fregano dei robots.txt e' vero, ma su una cosa scema come il mio sito e un dir cgi-bin mi sembrava strano. Allora ho verificato piu' attentamente ed ecco cosa ho notato:

miosito.com/cgi-bin/vai?https://sito1.com
miosito.com/cgi-bin/vai?https://sito2.com
miosito.com/cgi-bin/vai?https://sito3.com
miosito.com/cgi-bin/vai?https://sito100.com
miosito.com/cgi-bin/vai?https://sito1000.com

Tutte le url esterne che vengono lanciate tramite lo script vai.php sono delle https. Su centinaia di migliaia di url eseguite tramite il programmino solo le 3 o 4 mila che iniziano con https hanno "forzato" il bot ad ignorare il robots.txt. Notare che non parlo di https://miosito.com/vai?http://sito1.com ma di un normale http://miosito.com/cgi-bin/vai?https://sito1.com
Questa cosa e' interessantissima. Perche' uno spider dovrebbe infrangere le sue stesse regole per spiderizzare una url che contiene un pezzo di stringa con https? Forse e' un baco, ma sarebbe di quelli grossi.
Adesso ne sparo una da utonto. Se verifico http://www.miosito.com/robots.txt vedo il mio robots.txt. Ovviamente se scrivo https://www.miosito.com/robots.txt, la 443 non e' abilitata su quel sito e ho un code 404. Allora mi chiedo, non e' che lo spider di G vede nell'url l'https, non distingue tra inizio url e seguito della stessa ed allora ragiona che https://www.miosito.com/robots.txt non esiste ed pertanto spiderizza l'url? Se fosse cosi' ci sarebbe da divertirtsi.

Aspettando vostri lumi su questa cosa mi e' venuto un altro dubbio, G trattera' alla stessa stregua la home di http://miosito.com rispetto quella di https://miosito.com? Spam con url hpps:// ne ho visto poco e chi mi dice che questo tipo di url non sia de-penalizzata in qualche modo?

**Low** · 22-07-2004, 10:02

Stavo controllando e sotto G con il comando site: mi sono trovato elencate migliaia di url tipo miosito.com/cgi-bin/vai?

Mostra solo l'URL o anche descrizione e cache della pagina a cui il redirect punta?

Mi pare un bug, comunque. Se è vero che confonde il protocollo di accesso, significherebbe pure che la cosa è programmata un po' con i piedi.

**homeworker** · 22-07-2004, 10:31

preso dalle faq di Google

È importante ricordare inoltre che ciascuna porta deve disporre di un proprio file robots.txt. In particolare, se i contenuti vengono forniti tramite http e https, sarà necessario un file robots.txt diverso per ciascun protocollo. Ad esempio, se desiderate fornire tutti i tipi di file tramite http e le sole pagine .html tramite https, il file robots.txt per il protocollo http (http://server.com/robots.txt) sarà:

codice:

	User-Agent: *
	Allow: /

Il file robots.txt per il protocollo https (https://server.com/robots.txt) sarà invece:

codice:

	User-Agent: *
	Disallow: /
	Allow: /*.html$

Un altro standard, più comodo in caso di utilizzo per singole pagine, implica l'aggiunta di un tag <META> in una pagina HTML per indicare ai robot di non indicizzare la pagina o non eseguire i collegamenti in essa contenuti. Per una descrizione di questo standard, vi rimandiamo alla pagina http://www.robotstxt.org/wc/exclusion.html (informazioni in lingua inglese). È inoltre consigliabile leggere le informazioni riportate nello standard HTML a proposito di tali tag. È utile ricordare che la modifica del file robots.txt del server o dei tag <META> nelle relative pagine non sarà immediatamente visibile nei risultati di Google. Le modifiche apportate diventano effettive dopo la successiva operazione di scansione.

https://www.tuosito.com non è raggiungibile vero?

In teoria il tuo codice è esatto ma evidentemente con https e parametri ? insieme serve qualche altro tipo di codice

prova con:

preso dalle faq di Google
12. In che modo è possibile indicare a Googlebot di non includere nella scansione pagine generate dinamicamente sul mio sito?

Utilizzate il seguente file robots.txt.

codice:

       User-agent: Googlebot
       Disallow: /*?

ma ricorda anche che:

preso dalle faq di Google
È importante notare la sottile differenza tra il modo in cui Googlebot gestisce il file robots.txt e il modo previsto dallo standard robots.txt. In base allo standard, dovrebbe essere seguita la prima regola valida, mentre Googlebot segue la regola valida più lunga, ossia la più specifica.

nel tuo caso credo ti serva

codice:

Disallow: /cgi-bin/vai?

Ciao

**homeworker** · 22-07-2004, 10:48

Ci stavo ripensando ed è strano perchè se Google legge http://www.sito.it/robots.txt ed è indicato di non indicizzare http://www.sito.it/cgi-bin/ lui non dovrebbe comunque arrivare a leggere gli url dopo http://www.sito.it/cgi-bin/ qualsiasi protocollo abbiano. Altrimenti a che serve mettere il robots.txt?

Forse legge prima http ed in base al protocollo "principale" considera per l'esclusione/inclusione solo quel particolare protocollo. CMQ secondo me google un'occhiatina veloce veloce anche a quello che è stato escluso con il robots.txt la da sempre...

Magari metti anche un robots sulla porta 443 con

codice:

Disallow: /cgi-bin/

Così dovrebbe funzionare per forza...

**agoago** · 22-07-2004, 18:52

Low scrive:

Mostra solo l'URL o anche descrizione e cache della pagina a cui il redirect punta?

Solo url.

Homeworker scrive:

Magari metti anche un robots sulla porta 443 con...

Il problema e' che il sito non usa https. Solo normali pagine http che al loro interno presenteno link a /cgi-bin/vai?https://ecc
Pertanto e' come se io scrivendo Disallow: /*? poi mi trovassi spiderizzate migliaia di pagine con /prodotto.asp?cane&url=https://cane.com mentre nessuna con /prodotto.asp?varialbile&url=http://variabile.com
Magari attivando 443 e mettendo anche li' il robots.txt evito questa cosa ma e' una brutta forzatura.

**Low** · 22-07-2004, 19:02

Solo url.

Allora è probabile che non le abbia prelevate affatto, le pagine relative a quegli URL.

Il protocollo robots.txt è uno dei più fumosi e vaghi che esistano (difatti non ha nemmeno una RFC) e molti motori/spider si permettono di applicarlo e interpretarlo come meglio credono.

Ad esempio, alcuni motori hanno deciso che la presenza di un URL in "Disallow" indica che quel path non venga seguito dallo spider, ma che l'URL possa apparire comunque nei risultati di ricerca.

Se cerchi su Google "robots.txt validator", al primo posto appare una pagina che non è mai stata archiviata dal motore, ma che appare comunque nei risultati di ricerca per il semplice fatto che lo spider ha trovato diversi link che puntano ad essa.

Le informazioni sulla pagina mostrate da Google (descrizione, titolo) sono estratte da ODP e/o dai link che puntano alla pagina.

Quindi la presenza nei risultati non indica necessariamente il fatto che lo spider non abbia rispettato le indicazioni del robots.txt.

**agoago** · 25-07-2004, 06:08

Se avessi ragionato con la testa e non con i piedi forse avrei analizzato subito i miei file log per scoprire che in effetti nessuna url tipo miosito.com/cgi-bin/vai?https://sito1.com aveva ricevuto un tentativo di spiderizzazione da parte di G. Pertanto come ci dice anche Low sono url elencate per "deduzione", io motore le trovo in un sito, non ho il permesso di spiderizzarle allora le elenco e basta. Quello che non torna, a questo punto e' che queste url sono rintracciabili normalmente facendo una ricerca. Se per esempio ho:
miosito.com/cgi-bin/vai?https://sito1.com/cane/pazzo/cibo-buono.html
e cerco su G cane pazzo cibo buono, in mezzo ai tanti risultati ecco che appare anche la mia url che butta su quel sito. Pertanto sembrerebbe che G garantisca un eventuale esclusione dei contenuti che il webmaster desidera proteggere dalla spiderizzazione, ma non l'esclusione dal suo catalogo delle url stesse che li rappresentano.
Questa cosa sembra comprensibile e magari giustificabile per tante questioni tecniche ma credo vada un po' oltre i "doveri" di un motore. Se blocco l'accesso ad un contenuto di una url e' sottinteso che desidero che quella url rimanga "nascosta" agli occhi dei piu'. Potrebbe essere una url dinamica con dentro dati sensibili che non desidero mettere in pubblica piazza e pertanto chiedo ai motori di evitarne la catalogazione. Se poi ritrovo migliaia di quelle url elencate e le ritrovo proprio quando cerco uno di quei dati sensibili che volevo proteggere (nel limite del possibile per un motore) mi domando se tutto funziona a dovere.

**Low** · 25-07-2004, 06:34

agoago, non sei l'unico a lamentarti di questa interpretazione che Google dà al robots.txt.

La mia opinione personale in merito è che sia più colpa dell'orrendo "standard" del robots.txt, aperto a decine di interpretazioni diverse, che dei motori di ricerca. Ma questo non toglie che il problema esiste e che sia fastidioso.

In caso di normali pagine, per risolvere il problema in discussione di solito l'unica maniera è quella di non impedire col robots.txt l'accesso alle pagine e di inserire all'interno delle stesse un meta tag ROBOTS col valore NOINDEX. Questa soluzione fa scaricare la pagina a Google ma non la fa apparire nelle ricerche (nemmeno l'URL).

Tuttavia nel tuo caso è un po' diverso perché la pagina che non vuoi appaia nelle ricerche è un redirect, quindi presumibilmente una pagina che si limita ad usare un header HTTP "Location:" e priva di meta tag e altri contenuti.

**giorgiotave** · 25-07-2004, 14:13

scusate l'intromissione.....

ma se tu agoago blocchi una cartella dove c'e una pagina pero questa pagina è linkata da qualche parte la prende lo stesso.....

il problema e che secondo me gg legge l'istruzione ma non la segue

cioe si non ti spiderizza la pagina ma guarda cosa c'e e se hai del link......mi fermo perche poi con i link non so che fa.....

il robot in quel modo serve per non far vedere la cartella ma sai qualcuno è curioso

**Low** · 25-07-2004, 15:42

Il robots.txt non è nato per nascondere i file o le cartelle, ma solo per impedire che gli spider ne effettuino il download.

Quindi lo spider di Google non ha disobbedito al robots.txt, perché quei file e quelle directory non sono mai state prelevati dallo spider.

ma se tu agoago blocchi una cartella dove c'e una pagina pero questa pagina è linkata da qualche parte la prende lo stesso.....

Se facesse così disobbedirebbe al robots.txt. Ma non ha disobbedito, perché non ha mai preso quelle pagine.

Discussione: G e robots.txt

Strumenti discussione

Ricerca discussione

Visualizza

G e robots.txt

Permessi di invio