PDA

Visualizza la versione completa : Interpretazione file di log


mm/ml
01-07-2003, 12:57
Ho la possibilità di analizzare i file di log ma sono molte le cose che vorrei capire.

Innanzitutto le variabili che contengono:
date: la data della richiesta
time: l’ora della richiesta
c_ip: l’indirizzo ip
cs_username: contiene sempre questo "-"
s_sitename: contiene sempre questo "W3SVC2721"
cs_method: contiene sempre questo "GET" o "-"
cs_uri_stem: file richiesto
cs_uri_query: contiene sempre questo "-"
sc_status: codici di status
sc_bytes: numero di bytes
cs_bytes: numero di bytes
cs_host: contiene sempre il nome del dominio
cs_User_Agent: contiene l’user agent
cs_Referer: pagina di provenienza

Cosa significano i suffissi cs e sc? E quindi che differenza c’è tra sc_bytes e cs_bytes?
Qualcuno sa dirmi se le mie interpretazioni sono giuste e cosa indicano le altre variabili?

GRAZIE

mm/ml
02-07-2003, 18:08
Nessuno sa aiutarmi?
Anche cose che forse per voi sembrano banali forse per me non lo sono!

GRAZIE

Low
02-07-2003, 18:43
Non conosco quel tipo di statistiche, ma ad intuito direi che "cs" significhi "dal client al server" e "sc" significhi "dal server al client".

assia
02-07-2003, 18:44
Bho...sinceramente i miei files di log sono completamente diversi...mai visti simili a quelli....:bhò:

mm/ml
02-07-2003, 19:33
Innanzitutto grazie, sapevo di poter contare su di voi.

Quindi di queste variabili nessuno conosce il significato?
cs_username s_sitename cs_method cs_uri_query cs_host
Beh, fino a che mi daranno lo stesso risultato credo che serviranno anche a poco.

Vorrei passare ad analizzare il contenuto di alcune variabili conosciute anche achi non osserva direttamente i files di log.

Per prima cosa vorrei sapere che utilizzo se ne può fare della conoscenza dei codici di status.

GRAZIE

Low
02-07-2003, 19:47
mm/ml , continuo ad andare ad intuito:

cs_username: il nome dell'username se l'utente si è fatto riconoscere (ad esempio in una pagina protetta da username e password).

s_sitename: non lo so, ma potrebbe essere un identificativo del server per distinguere i siti in virtual hosting.

cs_method: il GET è il metodo base, il metodo POST è quello che solitamente si usa nei FORM, il metodo HEAD permette al client di ricevere solo l'header della pagina e non il suo corpo. Ci sono altri metodi e puoi trovarli nella RFC del protocollo HTTP. Quando scrive "-" non so cosa voglia dire.

cs_uri_query: Boh! Forse la query che segue il nome della pagina. Ad esempio quella che segue il carattere "?". Ma non ne sono molto certo.

cs_host: il nome del dominio. :)

mm/ml
02-07-2003, 19:51
Grazie di nuovo.

Che cosa mi dici sull'utilità dei codici di status?

Low
02-07-2003, 19:57
Da quelli puoi capire se la transazione del file è andata a buon fine, se il server ha istruito il client per operare un redirect o se vi sono stati errori di vario genere.

Dovresti leggere la documentazione (RFC) del protocollo HTTP, sono tutti listati là.

Mi fermo perché siamo mostruosamente OT: :)

mm/ml
02-07-2003, 20:22
Sì ho letto il significato dei vari codici, ma ai fini pratici non ho saputo mai che fare leggendo le statistiche ad essi relative.

Ti vorrei confermare che sc_byte ha valori molto più alti di cs_byte

La difficoltà più grossa consiste comunque nell'estrarre le informazioni in maniera automatica dallo user agent e dal referer.
E' possibile in questa sede avere dei suggerimenti?
Quali sono ad esempio le informazioni che sicuramente contengono lo user agent ed i referers dei motori di ricerca oltre alle parole chiave?

GRAZIE

mm/ml
03-07-2003, 18:20
Credo di non essere OT chiedendo i contenuti dei files di log.
Non sto chiedendo come si fa tecnicamente ad estrarre i dati da questi files ma quale significato hanno.

Ritengo che tale conoscenza sia fondamentale: è inutile vedere tutti i giorni se sono primo con una parola chiave (e magari disperarsi solo perché Google si è svegliato male) se poi dalle statistiche risulta che con quella parola in realtà nessuno è mai arrivato al mio sito.

Molti visionano i risultati di statistiche già fatte e non potrebbe essere altrimenti: non tutti hanno accesso ai files di log ed è difficile trarre conclusioni dai dati grezzi (ne so qualcosa ma ci sto provando).

Attenzione però.
- spesso i risultati di statistiche già pronte sono inesatti come anche molti di voi hanno fatto notare in questo forum
- spesso non si conosce a fondo il significato di certi risultati e se ne ignora l’utilità (vedi il mio caso dei codici di stato). Ho notato anche ad esempio che molti ignorano ancora il dato fondamentale, la distinzione cioè tra numero di files richiesti, numero di pagine, numero di visite e numero di visitatori
- spesso i risultati propinati non sono esaustivi (sapere che c’è stato il 5% di messaggi “404 Document not found” forse non serve se non si conoscono le altre informazioni relative a questa richiesta come ad esempio il file richiesto)
- spesso i risultati sono fuorvianti. Spesso a seconda di come sono presentati i dati o comunque di come sono interpretati si possono trarre delle conclusioni opposte. Vi faccio un esempio inventato: gestite un sito di biancheria intima. Andate dal titolare del sito, colui che produce la biancheria e lo informate che gli accessi avvengono in maggior parte nelle ore notturne. Il titolare penserà che forse dovrà produrre degli articoli sexy per i depravati della notte. In realtà combinando quei risultati con quelli dell’estensione del referer si scopre che provengono tutti da paesi stranieri dove per il fuso orario è pieno giorno.
E’ un esempio stupido e forse anche sbagliato (l’ora magari è quella del client e non del server), ma vi assicuro per esperienza che questo succede spesso anche in altri campi e soprattutto in notizie date alla televisione dove per mancanza di tempo o volutamente non si spiegano i dettagli di come è stata svolta la statistica e si dà per scontato come vadano interpretati i dati.

Spero qualcuno possa aiutarmi per le domande che ho già posto, altrimenti ne ho molte altre da postarvi:
- perché nello user agent compare diverse volte ‘ia_archiver’ ed il referer è vuoto?
- un visitatore può avere diversi ip?
Per ora vi risparmio le altre.

GRAZIE

Loading