Dubbio su Robots.txt

**Pandax** · 10-08-2013, 11:05

Ciao a tutti, ho creato il robots.txt per impedire ai vari motori
di indicizzare alcune pagine sensibili.

mi è però venuto un dubbio...
io nel robots ho scritto righe del tipo:

Disallow: /registrazione/schedaprecompilata.php

Nel sito però la pagina schedaprecompilata.php non viene richiamata direttamente
ma viene "inclusa" all'interno di una pagina master, l'url che ne risulta è una cosa di questo tipo:

codice:

http://www.sito.it/index.php?dpr=registrazione&fpr=schedaprecompilata

la domanda perciò è questa...

- il modo in cui blocco l'indicizzazione è corretto?
o... dovrei scrivere in aggiunta anche

Disallow: /index.php?dpr=registrazione&fpr=schedaprecompilata

e ultima domanda...

- se faccio ad esempio

Disallow: /index.php

blocco anche tutti gli url con index.php indipendentemente dalle variabili get?
es /index.php?dpr=registrazione

o se faccio

Disallow: /index.php?dpr=registrazione&fpr=schedaprecompilata

blocco tutti gli url che coincidono indipendentemente contengano variabili get aggiuntive?
es /index.php?dpr=registrazione&fpr=schedaprecompilata &pag=4

grazie in anticipo a chiunque risponda.

**gabvi** · 22-08-2013, 00:25

Salve!

non mi sembra corretto bloccarla in quel modo sul robot.txt.
Se usi un CMS, è consigliabile configurare quella pagina specifica in modo che contenga il tag noindex, nofollow : <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Per maggiori dettagli, allego la specifica robots.txt di come Google interpreta il file

https://developers.google.com/webmas...bots_txt?hl=it

e il link ufficiale http://www.robotstxt.org/

**Pandax** · 22-08-2013, 09:10

non uso cms...
comunque qui.. un esempio di quello di cui parlo

http://sanzon.wordpress.com/2008/04/...-querystrings/

**gabvi** · 22-08-2013, 11:15

io farei riferimento alla specifica google, anche se a prima lettura mi pare che quanto riportato nel link che hai postato possa funzionare.

https://developers.google.com/webma...obots_txt?hl=it

se vai al capitolo: "URL matching based on path values", ci sono esempi e le wildcard supportate ($, *) pare anche da Bing e Ask.

Nel caso che hai esposto:

Disallow: /index.php?dpr=registrazione&fpr=schedaprecompilata

blocca l'url, ma anche tutte quelle con parametri aggiuntivi. es /index.php?dpr=registrazione&fpr=schedaprecompilata &pag=4

Anche: Disallow: /index.php
blocca index.php, ma anche /index.php?etc=...

Non ho mai provato, ma dalla specifica sembra che usando la wildcard $ si possa ad esempio bloccare solo la index.php

es. Disallow: /index.php$

Combinando * e $ si possono ottenere regole più complesse.
Poi utilizzando le Allow e tenendo presente che la regola più specifica vince su quella meno specifica, si può ottenere una configurazione complessa del robots.txt

Però non tutti i motori sono tenuti a rispettare quelle wildcard e alcuni non supportano nemmeno le Allow.

Discussione: Dubbio su Robots.txt

Strumenti discussione

Ricerca discussione

Visualizza

Dubbio su Robots.txt

Permessi di invio