Pagina 1 di 3 1 2 3 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 25
  1. #1
    Utente di HTML.it L'avatar di grin
    Registrato dal
    Aug 2004
    Messaggi
    1,629

    Come proteggersi dalla penalty di Google in caso di url riscritte con mod_rewrite?

    Qualsiasi sito che riscrive i propri url da dinamici in statici con mod_rewrite è a rischio di essere penalizzato dai search engine (Google in primis) per possibile duplicate content.
    Per essere penalizzati basta che qualche script kiddie scopre la struttura delle url dinamici e le linka da un sito autorevole. Così avrete doppi pagine, per esempio: www.example.com/directory/ e www.example.com/index.php?cat=1

    Dopo diverse penalizzazioni da parte di Google per alcuni dei miei siti mi sarebbe utile sapere come proteggersi? Credo che ci vogliono delle "conditions" particolari in file .htaccess per elaborare correttamente i variabili (spesso multipli).

    Suggerimenti?

  2. #2
    ...con un redirect 301 non dovresti avere questo problema

    o no?

  3. #3

    Re: Come proteggersi dalla penalty di Google in caso di url riscritte con mod_rewrite?

    Originariamente inviato da grin
    Dopo diverse penalizzazioni da parte di Google per alcuni dei miei siti mi sarebbe utile sapere come proteggersi? Credo che ci vogliono delle "conditions" particolari in file .htaccess per elaborare correttamente i variabili (spesso multipli).

    Suggerimenti?
    Semplice.:

    usa l'insetticida per i ragnetti dei search engines:

    file robots.txt

    Escludi dal crawling del motore tutto ciò che non è "in bella".
    Praticamente non consegni la "brutta copia" della pagina al professor BigDaddy.

  4. #4
    Utente di HTML.it L'avatar di grin
    Registrato dal
    Aug 2004
    Messaggi
    1,629
    Originariamente inviato da simone22011971
    ...con un redirect 301 non dovresti avere questo problema

    o no?
    Infatti ho dei problemi a reindirizzare le uri dinamiche del tipo example.com/index.php?cat=1 a example.com/directory/ per esempio..
    Credo che sia per i variabili nella stringa (cat=1&sub=176) infatti speravo che qualuno who is hard with regular expressions postasse qualche soluzione tecnica..

    Originariamente inviato da ppevans
    Semplice.:

    usa l'insetticida per i ragnetti dei search engines:

    file robots.txt

    Escludi dal crawling del motore tutto ciò che non è "in bella".
    Praticamente non consegni la "brutta copia" della pagina al professor BigDaddy.
    Avevo dal inizio nel file robots.txt questa limitazione:

    codice:
    User-agent: *
    Disallow: /*?
    che dovrebbe indicare a spider di non indicizzare gli url dinamici..
    ma nulla da fare - li ha presi!
    Pure dal pannello di Google Webmaster Tools mi dice che vietato l'accesso ai file dinamici ma nella serp sono presenti pagine del tipo example.com/index.php?cat=1&sub=974

    Il sito prima conteneva nell'indice di Google più di 1000 pagine, ora visualizza soltanto una trentina e quasi 90% con la dicitura Risultati supplementari - quindi probabilmente è stato penalizzato per duplicate content siccome Googlebot ha visto pagine simile verso 50% (cioè clone del sito con url dinamici.. Infatti speravo in robots.txt ma non ha funzionato)..

    Credo che una regola nel mod_rewrite che ritorna un bel 404 per tutte le pagine dinamiche sarebbe d'ordine visto che robots.txt non funziona..

  5. #5
    Originariamente inviato da grin
    codice:
    User-agent: *
    Disallow: /*?
    Nooo.A me non sembra corretta come sintassi.(Non è il dos!)
    Già questa per esempio poteva essere meglio:

    Disallow: /index
    Disallow: /content

    Ovviamente presuppone una riscrittura di tutte le url che iniziano per index,content..


  6. #6
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913
    Originariamente inviato da simone22011971
    ...con un redirect 301 non dovresti avere questo problema
    Non ha senso mettere il 301 sulle url dinamiche perchè il mod_rewrite si limita a riscrivere la url, però poi ti visualizza la pagina che uscirebbe dall'url reale (quello dinamico) che quindi deve essere funzionante.

    La prima domanda è: perchè le url dinamiche sono entrate nell'indice? Io mi aspetto che non siano state linkate... è successo qualcosa di particolare?

    L'unico sistema secondo me è agire bene sul robot.txt: non ho mai provato, però so che certe diciture non sono standard al 100%, nel senso che alcuni motori interpretano certe cose in un modo e certe altre in un altro. Un sistema furbo potrebbe essere mettere lo script php in una cartella a parte, titpo /script/file.php, e poi escludere quella cartella col robot... dovrebbe essere indolore.

    Altre idee?

  7. #7
    Originariamente inviato da rigby76
    La prima domanda è: perchè le url dinamiche sono entrate nell'indice? Io mi aspetto che non siano state linkate... è successo qualcosa di particolare?
    Il motore ha solo fatto il suo dovere.
    Non sono state escluse dal robots quindi......

  8. #8
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913
    Originariamente inviato da ppevans
    Il motore ha solo fatto il suo dovere.
    Non sono state escluse dal robots quindi......
    Mi stavo solo chiededo perchè le url dinamiche siano state indicizzate... se le linki solo con la url riscritta e mai con quella dinamica non ci dovrebbe essere modo per il motore di conoscere l'altra url.

    Mica lo spider va a vedere i file che hai sul server!

    Quindi, o errore unamo, o qualcosa che non mi immagino.

  9. #9
    Utente di HTML.it L'avatar di grin
    Registrato dal
    Aug 2004
    Messaggi
    1,629
    Sicuramente sarà intervenuto qualche concorrente sleale..
    Sospetto che le pagine dinamiche (tutte) siano state fatte entrare nell'indice solo per via dei link da un sito estraneo al mio.. per ora non ho le prove ma non vedo altre possibilità in quanto le url sono state rescritte prima del lancio del progetto..

    Il seguente codice dovrebbe proprio impedire ai spider di indicizzare le pagine dinamiche secondo Robots Exclusion Standard..
    codice:
    User-agent: *
    Disallow: /*?

  10. #10
    Moderatore di Motori di ricerca e webmarketing L'avatar di rigby76
    Registrato dal
    Oct 2005
    residenza
    Firenze
    Messaggi
    4,913
    Un'alternativa potrebbe essere quella di effetuare una sorta di cloaking lato server, con php o quel che usi.

    In pratica nel codice fare una verifica dell'url di richiesta: se è riscritto lasciare com'è, altrimenti inserire un meta no-index nell'head dell'html. Google almeno lo considera: http://www.mattcutts.com/blog/handli...dex-meta-tags/

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.