Visualizzazione dei risultati da 1 a 3 su 3
  1. #1

    [XHTML] Google odia Xhtml ?

    dalle guide di XHTML sembra quasi che sia 'preferito' da Google

    lo sperimento in uno dei miei siti e Google lo ha proiettato in ultima posizione

    cerco su Google e trovo questo articolo: Google hates xhtml


    è vero secondo voi?
    Farmacia di Jarno - le mie pillole: Cookie [#780810], Dom4Php4 [#1123236], Fade [#1139489], getCssProperty [#1152911]
    Inchinatevi difronte al Prof! Nacchio!

    A me pare che l'uomo vada avanti con la retromarcia

  2. #2
    why would they parse it as XML? Just tokenize it like I imagine the must currently do for HTML. Google doesn’t care about the structure of the document, just the words contained within.
    Tra odiare e "non privilegiare" ce ne passa.

    Sei sicuro che il tuo sito sia ultimo a causa del doctype?

    I bot sono capaci di digerire tutto html come xhtml anzi, un documento xhtml validato ha ottime probabilità che lo spider non si "incarti" estraendo il testo della pagina rispetto a un html pasticciato, non saranno certo due attributi compresi tra < > a farlo incartare.

  3. #3
    facciamo un pò di chiarezza....in primis questi sono gli header delle request inviati dai crawler di Google

    codice:
    Accept: */*
    Accept-Encoding: gzip
    Connection: Keep-alive
    From: googlebot(at)googlebot.com
    Host: www.giochinternet.com
    If-Modified-Since: Fri, 04 May 2007 22:20:36 GMT
    User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    dalle intestazioni si capisce che Google non pone limiti sui tipi MIME e infatti elabora un pò di tutto ( documenti word, pdf, ppt, xls, html, xml, xhtml e parecchi altri )

    la differenza fondamentale sta nel come viene servito il codice xhtml

    Content-Type: application/xhtml+xml è il caso tipico di codice che dev'essere assolutamente validato e deve specificare l'encoding tramite l'header Content-Type o una dichiarazione XML

    la mancata validazione di codice identificato tramite quel MIME type implica la mancata analisi del documento

    l'altra possibilità, chiamata modalità compatibile HTML, è Content-Type: text/html ...in questo caso si usa il DTD Transitional dell'XHTML e il parsing avviene tramite dei soup parser, cioè parser che accettano codice malformato e tentano di correggerlo....

    infine l'uso del DTD Strict per XHTML implica che il documento dev'essere assolutamente conformato alle regole dell'XHTML

    infine a volte si tende a servire XHTML come application/xml o text/xml il che può creare seri problemi a seconda dei parser utilizzati

    in sostanza è facilissimo che un codice mal scritto in XHTML venga ignorato o storpiato, mentre nel caso di HTML il parser farà le acrobazie per cercare di tirar fuori qualcosa, tant'è che nel caso dei sistemi di IR l'importante è tirare fuori il testo, mentre i tag svolgono ruoli non strettamente necessari....nel caso di XHTML invece i tag vanno interpretati e ogni errore può causare perdita di informazioni o il mancato parsing del documento

    questo è in sostanza il motivo per cui si preferisce HTML per il web, ma di certo non è che Google odi XHTML per partito preso

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.