dalle guide di XHTML sembra quasi che sia 'preferito' da Google
lo sperimento in uno dei miei siti e Google lo ha proiettato in ultima posizione
cerco su Google e trovo questo articolo: Google hates xhtml
è vero secondo voi?
dalle guide di XHTML sembra quasi che sia 'preferito' da Google
lo sperimento in uno dei miei siti e Google lo ha proiettato in ultima posizione
cerco su Google e trovo questo articolo: Google hates xhtml
è vero secondo voi?
Farmacia di Jarno - le mie pillole: Cookie [#780810], Dom4Php4 [#1123236], Fade [#1139489], getCssProperty [#1152911]
Inchinatevi difronte al Prof! Nacchio!
A me pare che l'uomo vada avanti con la retromarcia
Tra odiare e "non privilegiare" ce ne passa.why would they parse it as XML? Just tokenize it like I imagine the must currently do for HTML. Google doesn’t care about the structure of the document, just the words contained within.
Sei sicuro che il tuo sito sia ultimo a causa del doctype?
I bot sono capaci di digerire tutto html come xhtml anzi, un documento xhtml validato ha ottime probabilità che lo spider non si "incarti" estraendo il testo della pagina rispetto a un html pasticciato, non saranno certo due attributi compresi tra < > a farlo incartare.
facciamo un pò di chiarezza....in primis questi sono gli header delle request inviati dai crawler di Google
dalle intestazioni si capisce che Google non pone limiti sui tipi MIME e infatti elabora un pò di tutto ( documenti word, pdf, ppt, xls, html, xml, xhtml e parecchi altri )codice:Accept: */* Accept-Encoding: gzip Connection: Keep-alive From: googlebot(at)googlebot.com Host: www.giochinternet.com If-Modified-Since: Fri, 04 May 2007 22:20:36 GMT User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
la differenza fondamentale sta nel come viene servito il codice xhtml
Content-Type: application/xhtml+xml è il caso tipico di codice che dev'essere assolutamente validato e deve specificare l'encoding tramite l'header Content-Type o una dichiarazione XML
la mancata validazione di codice identificato tramite quel MIME type implica la mancata analisi del documento
l'altra possibilità, chiamata modalità compatibile HTML, è Content-Type: text/html ...in questo caso si usa il DTD Transitional dell'XHTML e il parsing avviene tramite dei soup parser, cioè parser che accettano codice malformato e tentano di correggerlo....
infine l'uso del DTD Strict per XHTML implica che il documento dev'essere assolutamente conformato alle regole dell'XHTML
infine a volte si tende a servire XHTML come application/xml o text/xml il che può creare seri problemi a seconda dei parser utilizzati
in sostanza è facilissimo che un codice mal scritto in XHTML venga ignorato o storpiato, mentre nel caso di HTML il parser farà le acrobazie per cercare di tirar fuori qualcosa, tant'è che nel caso dei sistemi di IR l'importante è tirare fuori il testo, mentre i tag svolgono ruoli non strettamente necessari....nel caso di XHTML invece i tag vanno interpretati e ogni errore può causare perdita di informazioni o il mancato parsing del documento
questo è in sostanza il motivo per cui si preferisce HTML per il web, ma di certo non è che Google odi XHTML per partito preso