robots, index, nofollow, quale ordine di interpretazione?

**gianiaz** · 05-07-2010, 12:02

Ciao, ho una domanda relativa all'ordine di importanza dell'interpretazione di index,nofollow e del file robots.txt.

Io un'idea me la sono fatta, ma vorrei chiedervi se sto ragionando nel modo corretto.

Mi hanno chiesto di fare in modo che una pagina siano mostrati un elenco di elementi con descrizione, nome e file allegati, che questa pagina venga indicizzata ma che i file pdf doc ecc che sono linkati non vengano indicizzati.

Quindi come primo pensiero verrebbe da dire che nella pagina venga messo un meta con:

<meta name="robots" content="index,nofollow">

in modo da indicizzare la pagina stessa ma non i link in essa contenuti, ma cosi non verranno seguiti tutti i link, compresi quelli che potrebbero essere utili per l'indicizzazione del sito.

Il problema si complica ulteriormente quando mi chiedono di mettere in home gli ultimi 3 articoli pubblicati, in questo modo se mettessi index, nofollow probabilmente mi taglierei le gambe da solo dicendo di indicizzare la home, ma nessuna delle pagine in essa linkata.

Quindi la mia domanda è, se lascio perdere il meta, e in un file robots txt metto:

User-agent: *
Disallow: /directorydegliallegati/

Posso stare tranquillo sul fatto che gli spider una volta incontrato un link ad un file presente nella directory specificata nel file robots lo scartino, senza però scartare le altre pagine?

Grazie

**filippo.toso** · 05-07-2010, 14:52

Originariamente inviato da gianiaz
Posso stare tranquillo sul fatto che gli spider una volta incontrato un link ad un file presente nella directory specificata nel file robots lo scartino, senza però scartare le altre pagine?

Se lo spider rispetta il robots.txt si. Tieni presente che Google potrebbe comunque mostrare l'URL dei documenti tra i risultati di ricerca anche se li hai bloccati tramite il robots.txt:

http://www.youtube.com/watch?v=KBdEwpRQRD0

IMHO, per essere sicuri, implementerei una rewrite rule con filtro sull'user agent che esegue un redirect 301 se è un bot a cercare di accedere a quelle risorse.

**Petro_suse91** · 05-07-2010, 16:30

Su Google puoi usare direttamente l'istruzione

User-agent: Googlebot
Noindex: /directorydegliallegati/

Equivale completamente ad un Noindex nei meta tag. Con il vantaggio che puoi usarlo anche per risorse diverse da pagine html.

**gianiaz** · 05-07-2010, 16:34

grazie a tutti per le info ;-)

Discussione: robots, index, nofollow, quale ordine di interpretazione?

Strumenti discussione

Ricerca discussione

Visualizza

robots, index, nofollow, quale ordine di interpretazione?

Re: robots, index, nofollow, quale ordine di interpretazione?

Permessi di invio