Visualizzazione dei risultati da 1 a 3 su 3
  1. #1
    Utente di HTML.it L'avatar di agoago
    Registrato dal
    Jan 2002
    Messaggi
    954

    Robots.txt, interpretazioni soggettive.

    Non rimarchero' ne vi parlero' (come faccio ormai da anni) di quanto sia essenziale che il rispetto del robots.txt ottenga (asap) una valenza-valore legalmente riconosciuto in tutto il web.

    Invece questa volta, piu' semplicemente faccio presente la posizione di google qui riportatata:

    http://www.google.com/support/webmas...y?answer=40362

    nella quale afferma:

    URLs are case-sensitive.
    For instance, Disallow: /private_file.html
    would block
    http://www.example.com/private_file.html,
    but would allow
    http://www.example.com/Private_File.html.

    Mi sembrerebbe una cosa assurda se G ne tenesse realmente conto, visto che nessun wm (o quasi) si preoccupa del case sensitive delle proprie url, infatti poi matt afferma:

    Robots.txt ...upper vs. lower case doesn’t matter.

    Notare la sottigliezza, G ci dice che il contenuto del robots e' case sensitive, ma poi non ci dice ufficialmente se lui terra' conto di questo aspetto.

    Insomma se G un domani volesse spiderizzare le serp di live.com:

    http://search.live.com/REsults.aspx?q=home

    potrebbe farlo senza remore, in quanto il robots di live riporta:

    User-agent: *
    Disallow: /results

    e non

    User-agent: *
    Disallow: /REsults

    -------------------------------

    Una cosa che mi ha sempre lasciato perplesso e' l'uso e la dimensione che assume il carattere / nel robots.txt.

    Esempio del robots.txt di G:

    User-agent: *
    Disallow: /news?output=xhtml&
    Allow: /news?output=xhtml
    Disallow: /news

    G ci dice che la pagina:

    http://www.google.com/news?output=xhtml
    puo' essere spiderizzata, mentre:

    http://www.google.com/news?output=xhtml&q=home
    no.

    Fin qui tutto normale, ora prendiamo in considerazione:

    http://www.google.com/news?output=xhtml////&q=home

    e vediamo cosa ci dice Google riguardo all' Allow:
    "The Allow line works exactly like the Disallow line"

    -------------

    Ricapitoliamo.
    G nel suo robots per prima cosa ci dice di non spiderizzare tutto cio' che inzia e segue questa sua url:

    /news?output=xhtml&

    poi mette un'eccezione, (correttissimo) e cioe' che si puo' spiderizzare tutto cio' che inzia e segue questa sua url:

    Allow: /news?output=xhtml

    (ma non se a seguire c'e' il carattere &, come prima specificato)

    Infine afferma che in tutti gli altri casi non si puo' spiderizzare le url che iniziano con /news

    --------

    Il contenuto di:

    http://www.google.com/news?output=xhtml&q=home

    e' identico al contenuto di:

    http://www.google.com/news?output=xhtml////&q=home

    con la differenza che la prima url mi e' preclusa alla spiderizzazione, la seconda no.

    -----------------------

    Insomma l'uso-aggiunta (l'abuso del carattere /) in moltissimi casi mi permettera' di spiderizzare url che viceversa mi sarebbero precluse (precluse solo per deontologia, ma per un vero informatico rispettare la netiquette e' tutto).

    E' vero, e' una lotta contro i mulini a vento, ma mi piace ricordare le parole di Guccini:

    "Dovrei anche rinunciare ad un po' di dignità,
    farmi umile e accettare che sia questa la realtà ?"
    "Altre fonti attendibili dicono che è raro... raro che sia evidentemente osservabile..." -UtèñtE-

  2. #2
    Il tuo discorso è interessante, ma purtroppo ci sono due punti da tenere in considerazione, come tu stesso hai notato

    1. non è uno standard, sebbene sarebbe ora che lo diventasse ufficialmente
    2. non è vincolante. Significa che se io dico a Teleport che non lo voglio sul mio sito... Teleport può comunque decidere di entrare lo stesso!

    Il tuo ragionamento se lo estendi poi ad altri MdR fa venire il mal di pancia.
    Ad esempio, Google accetta * come carattere jolly anche nel nome del file mentre se non ricordo male Ask no.

    La direttiva Allow è prerogativa solo di Google, così come le espressioni regolari.
    E potremmo andare avanti giorni...

  3. #3
    Utente di HTML.it L'avatar di luca200
    Registrato dal
    Apr 2002
    Messaggi
    4,120

    Re: Robots.txt, interpretazioni soggettive.

    Originariamente inviato da agoago
    nessun wm (o quasi) si preoccupa del case sensitive delle proprie url
    Il whisky a colazione fa male.

    I webmaster Windows, forse.
    Su sistemi Unix se lavori così ti becchi raffiche di 404

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.