esclusione spider: dove sbaglio?

**Petro_suse91** · 31-05-2005, 02:39

il mio robots.txt:

codice:

User-agent: *
Disallow: /dir1/
Disallow: /dir2/

in più in alcune pagine:

codice:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

Perché allora mr. Googlebot 2.1 mi va a ficcare il naso dove non dovrebbe?
Alcune di queste pagine sono linkate dall'interno, è vero... ma allora quei codici non servono a nulla?

**key** · 31-05-2005, 12:17

2. Non desidero che Google mantenga una versione cache della mia pagina.

Google scatta automaticamente un'"istantanea" di ciascuna pagina individuata durante il crawling e la memorizza nella cache in modo da evidenziare i termini cercati in pagine ricche di testo agevolando l'individuazione delle informazioni rilevanti e richiamare le pagine in caso di temporanea indisponibilità del server del sito. Gli utenti possono accedere alla versione cache facendo clic sul collegamento "Copia cache" nella pagina dei risultati della ricerca. Se non desiderate che il contenuto sia accessibile tramite la cache di Google, potete inserire il metatag NOARCHIVE nella sezione <HEAD> dei vostri documenti:

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Con questo tag si impedisce ai robot di memorizzare la pagina nella cache. Google continuerà comunque a indicizzare la pagina ed eseguire i collegamenti senza tuttavia visualizzare la versione memorizzata nella cache.

Se desiderate impedire la memorizzazione nella cache al solo crawler di Google, potete utilizzare invece il tag:

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

Tenete presente che la modifica diverrà effettiva solo alla successiva operazione di scansione della pagina che contiene il tag NOARCHIVE (in genere almeno una volta al mese). Se desiderate che la modifica risulti effettiva prima della scansione, chiedete al proprietario del sito di contattarci e richiedere la rimozione immediata del contenuto archiviato. L'istruzione NOARCHIVE consente solo di controllare la visualizzazione della pagina memorizzata nella cache. Per controllare l'indicizzazione della pagina, utilizzate il tag NOINDEX, mentre per controllare l'esecuzione dei collegamenti, inserite il tag NOFOLLOW. Per ulteriori informazioni, vi invitiamo a leggere la pagina relativa all'esclusione dei robot (informazioni in lingua inglese).

3. Non desidero che Google esegua la scansione totale o parziale del mio sito.

Per escludere i crawler (informazioni in lingua inglese), potete utilizzare un metodo standard basato sull'uso del file "robots.txt", che impedisce a Googlebot o ad altri crawler di visitare il vostro sito. L'agente utente di Google si chiama "Googlebot". Googlebot riconosce inoltre alcune estensioni dello standard robots.txt: le istruzioni Disallow possono ad esempio includere l'asterisco (*) in riferimento a una qualsiasi sequenza di caratteri; inoltre possono terminare con il simbolo di dollaro ($) per indicare la corrispondenza con la parte finale di un nome. Ad esempio, per impedire a Googlebot di eseguire la scansione di file che terminano con l'estensione gif, è possibile utilizzare la seguente voce del file robots.txt:

User-agent: Googlebot
Disallow: /*.gif$

È inoltre disponibile un altro standard per disattivare l'indicizzazione di una pagina Web specifica o l'esecuzione dei collegamenti in essa presenti, che può risultare più utile in quanto utilizzabile pagina per pagina. Tale metodo consiste nell'inserire un elemento "META" (informazioni in lingua inglese) in una pagina HTML.

Teniamo ancora una volta a precisare che la modifica del file robots.txt del vostro server o degli elementi "META" nelle pagine del vostro sito non ha effetto immediato nei risultati restituiti da Google. È probabile che per vedere applicate le modifiche nell'indice di Google sia necessario attendere la successiva operazione di scansione.

4. Perché Googlebot richiede il file robots.txt?

Robots.txt è un documento standard che indica a Googlebot di non scaricare parte o tutte le informazioni dal vostro server Web. Per informazioni sulla creazione di un file robots.txt, vi rimandiamo alla pagina relativa allo standard di esclusione robot (informazioni in lingua inglese).

5. Googlebot sta cercando di scaricare i collegamenti errati dal mio server.

I collegamenti possono interrompersi o diventare inaccessibili a causa delle caratteristiche stesse del Web. Se il collegamento al vostro sito viene digitato in modo errato o se non viene eseguito l'aggiornamento delle pagine dopo la modifica dei dati sul vostro server, Googlebot tenta di scaricare dal vostro sito un collegamento errato. Questo è anche uno dei motivi per cui i risultati possono comprendere riferimenti a sistemi che non sono server Web.

6. Googlebot sta cercando di scaricare informazioni dal mio server Web "segreto".

Anche se non si pubblicano i collegamenti che rimandano a un server Web, è praticamente impossibile mantenerlo segreto. Nel momento stesso in cui un utente, autorizzato ad accedere ad un sito "segreto", seleziona il collegamento ad un altro server Web, trasmette probabilmente il tag di riferimento del vostro URL "segreto", consentendone la memorizzazione ed anche la pubblicazione nel log di riferimento degli altri server Web. Pertanto, se esiste un collegamento al server Web "segreto" o ad una sua pagina, è probabile che Googlebot e gli altri crawler Web lo individuino.

7. Googlebot non segue le istruzioni del file robots.txt.

Per limitare l'uso di larghezza di banda, Googlebot scarica il file robots.txt solo una volta al giorno o nel caso in cui siano state acquisite molte pagine dal server. Per questo motivo, la rilevazione di eventuali modifiche effettuate ad un file robots.txt può non essere immediata. Inoltre, occorre tenere presente che Googlebot è distribuito su più sistemi che tengono traccia del file robots.txt singolarmente. È utile anche verificare che la sintassi sia corretta, consultando il sito Web all'indirizzo http://www.robotstxt.org/wc/norobots.html (informazioni in lingua inglese). Se il problema persiste, vi preghiamo di segnalarcelo per darci modo di correggerlo.

8. Perché esistono più sistemi che utilizzano l'agente Googlebot su Google.com?

Googlebot è stato progettato per essere distribuito su più sistemi per offrire prestazioni e scalabilità migliori e tali da soddisfare la continua crescita delle risorse Web. Per ridurre la larghezza di banda utilizzata, ci proponiamo di utilizzare più crawler installati su computer situati vicino ai siti indicizzati sulla rete.

9. Googlebot sta eseguendo la scansione del mio sito troppo velocemente.

Vi preghiamo di inviare un messaggio di posta elettronica all'indirizzo googlebot@google.com specificando il nome del sito e una descrizione dettagliata del problema. Vi consigliamo anche di includere una parte del log in cui sono riportati gli accessi Google, in modo da consentirci di individuare e risolvere il problema più rapidamente.

10. Non desidero che Google esegua l'indicizzazione di file HTML sul mio sito.

Per disattivare l'indicizzazione di un tipo di file specifico, basta modificare il comando Disallow nel file robots.txt. Questo metodo può essere utilizzato per tutti i tipi di file indicizzati da Googlebot, compresi HTML, GIF e DOC. Ad esempio, per disattivare l'indicizzazione di file Microsoft Word caratterizzati dall'estensione ".doc", dovrete aggiungere le seguenti istruzioni nel file robots.txt:

User-agent: Googlebot
Disallow: /*.doc$

------------------------------------------------------------
....la verita e`
che uno spider o bot o crawer cacheggia TUTTO poi se lui(no TU) LO ritiene opportuno lo esclude alla "vista" del utente

O bere oppure affogare

**Petro_suse91** · 31-05-2005, 15:50

ma il mio robots.txt e il meta per non archiviare le pagine sono lì e sono uguali a sè stessi da prima della prima visita di mister G!

Poco male, mi ha indicizzato la pagina admin (linkata nella home, ma protetta con il file .htaccess -tanto che anche lui s'è visto negare l'accesso) e una pagina di servizio (quella relativa all'errore 403, appunto)

...però che stronzo!
Allora i meta e il robots cosa ce li metto a fare...

Cmq grazie key per la risposta

Discussione: esclusione spider: dove sbaglio?

Strumenti discussione

Ricerca discussione

Visualizza

esclusione spider: dove sbaglio?

Qui dice

Permessi di invio