[XHTML] Google odia Xhtml ?

**Jarno** · 06-05-2007, 11:20

dalle guide di XHTML sembra quasi che sia 'preferito' da Google

lo sperimento in uno dei miei siti e Google lo ha proiettato in ultima posizione

cerco su Google e trovo questo articolo: Google hates xhtml

è vero secondo voi?

**cicciput** · 06-05-2007, 13:55

why would they parse it as XML? Just tokenize it like I imagine the must currently do for HTML. Google doesn’t care about the structure of the document, just the words contained within.

Tra odiare e "non privilegiare" ce ne passa.

Sei sicuro che il tuo sito sia ultimo a causa del doctype?

I bot sono capaci di digerire tutto html come xhtml anzi, un documento xhtml validato ha ottime probabilità che lo spider non si "incarti" estraendo il testo della pagina rispetto a un html pasticciato, non saranno certo due attributi compresi tra < > a farlo incartare.

**paolino_delta_t** · 06-05-2007, 17:14

facciamo un pò di chiarezza....in primis questi sono gli header delle request inviati dai crawler di Google

codice:

Accept: */*
Accept-Encoding: gzip
Connection: Keep-alive
From: googlebot(at)googlebot.com
Host: www.giochinternet.com
If-Modified-Since: Fri, 04 May 2007 22:20:36 GMT
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

dalle intestazioni si capisce che Google non pone limiti sui tipi MIME e infatti elabora un pò di tutto ( documenti word, pdf, ppt, xls, html, xml, xhtml e parecchi altri )

la differenza fondamentale sta nel come viene servito il codice xhtml

Content-Type: application/xhtml+xml è il caso tipico di codice che dev'essere assolutamente validato e deve specificare l'encoding tramite l'header Content-Type o una dichiarazione XML

la mancata validazione di codice identificato tramite quel MIME type implica la mancata analisi del documento

l'altra possibilità, chiamata modalità compatibile HTML, è Content-Type: text/html ...in questo caso si usa il DTD Transitional dell'XHTML e il parsing avviene tramite dei soup parser, cioè parser che accettano codice malformato e tentano di correggerlo....

infine l'uso del DTD Strict per XHTML implica che il documento dev'essere assolutamente conformato alle regole dell'XHTML

infine a volte si tende a servire XHTML come application/xml o text/xml il che può creare seri problemi a seconda dei parser utilizzati

in sostanza è facilissimo che un codice mal scritto in XHTML venga ignorato o storpiato, mentre nel caso di HTML il parser farà le acrobazie per cercare di tirar fuori qualcosa, tant'è che nel caso dei sistemi di IR l'importante è tirare fuori il testo, mentre i tag svolgono ruoli non strettamente necessari....nel caso di XHTML invece i tag vanno interpretati e ogni errore può causare perdita di informazioni o il mancato parsing del documento

questo è in sostanza il motivo per cui si preferisce HTML per il web, ma di certo non è che Google odi XHTML per partito preso

Discussione: [XHTML] Google odia Xhtml ?

Strumenti discussione

Ricerca discussione

Visualizza

[XHTML] Google odia Xhtml ?

Permessi di invio