Visualizzazione dei risultati da 1 a 9 su 9
  1. #1

    HTTP_USER_AGENT Strano Valore

    Ciao,

    ho messo sul sito uno script (semplice, fatto dal sottoscritto) che rileva alcuni dati degli utenti connessi tramite lettura dell'http_user_agent;
    in 5 giorni ho avuto ben 93 accessi su 152 con il seguente valore dell'http_user_agent:

    msnbot/0.3 (+http://search.msn.com/msnbot.htm)

    che significa?
    mi sballa tutte le statistiche perchè mi segna che è un Browser e Sistema Operativo non Riconosciuto.

    Mi illuminate per favore?

    Grazie,

    Marco

  2. #2
    msnbot/0.3 is the latest version of the MSN Search crawler. This crawler is gathering pages to power an algorithmic search engine that we are building
    Preso da

    http://www.webmasterworld.com/forum97/186.htm

    (messaggio 4)

  3. #3
    OK. Come supponevo si tratta di uno di quei famosi SPIDER di cui ho sempre sentito parlare ma che non ho mai avuto l'onore di incontrare (è la prima volta che mi occupo di statistiche accessi).

    Rimane il problema che vorrei EPURARE le statistiche degli accessi da tali spider e, più in generale, da tutti gli accessi fittizzi al sito. Adesso cerco con il motore di ricerca di HTML, ma, se nel frattempo qualcuno ha già una bella risposta pronta, mi faccia sapere!

    PS: per riconoscere il SO e il Browser dall'http_user_agent utilizzo un sistema 'rigido' e in realtà poco efficiente, ma valido per le mie necessità: cerco nella stringa un valore conosciuto tramite l'istruzione instr() e in base al risultato (>0 o =0) decido che cos'è (x esempio se instr(stringa,"msie 6.0") > 0 allora deduco che il Browser è Explorer 6.0, etc...)

    Ancora Grazie,

    Ciao

  4. #4
    Ciao, sono ancora io,

    ho trovato sul forum, relativamente agli spider, reindirizzamenti alla classe di WEPPOS. In realtà, però, non voglio classificare gli spider, voglio solo poter dire se è uno spider (o robot, ma credo sia la stessa cosas!), oppure no, e se invece è un browser e/o SO che non ho inserito nell'elenco.

    Grazie

    Ciaoo

  5. #5
    Anche io ho avuto i tuoi problemi in passato. Ci sarebbe una classe in ASP (Client Capabilities), ma lasciala perdere...

    Io ho parzialmente risolto creandomi una tabella di database che associa dei browser (o spider) a dei pattern: se un pattern è presente in HTTP_USER_AGENT, allora il browser è identificato (più o meno quello che fai tu, ma li pesco da una tabella e non sono "hardcoded"). Poi, per ogni browser, ho associato le "capabilities" (supporto frame, supporto javascript, ecc. - credo a te non interessino). Tu potresti fare una cosa simile indicando se quello riconosciuto è un browser o un crawler.

    Quando scopro nuovi pattern, aggiungo nuovi record alla tabella.

    Il problema è la performance. Per ottimizzare il tutto tengo un log delle connessioni con già precalcolato il browser identificato al momento del primo accesso. Eseguire la scansione in fase di computazione delle statistiche rappresenta un suicidio (la tabella conta un migliaio di record, e non è possibile usare join).

    D'altro canto, se aggiorno la tabella, devo parsare nuovamente tutto il log degli accessi, ma questo non avviene cosi' frequentemente.

  6. #6
    Grazie ohmnibus,

    ma... troppo complicato! anzi, più esattamente, troppo lavoro... aggiornare le tabelle... devo trovare un sistema che mi dica se è un crawler oppure no!

    comunque GRAZIE 1000

    ciao,

    Marco

  7. #7
    Quello che ti ho suggerito è il metodo piu' completo. Potresti semplificarlo in base alle tue esigienze.

    Il punto è che NON ESISTE un modo per identificare i crawler tramite HTTP_USER_AGENT se non con una tabella di corrispondenze... che ovviamente va aggiornata di tanto in tanto, perche' ne escono sempre di nuovi. E ce ne sono molti che si spacciano per browser. E ci sono browser che ti permettono di modificare l'HTTP_USER_AGENT inviato...

  8. #8
    Originariamente inviato da 4everskiff
    Grazie ohmnibus,

    ma... troppo complicato! anzi, più esattamente, troppo lavoro... aggiornare le tabelle... devo trovare un sistema che mi dica se è un crawler oppure no!

    comunque GRAZIE 1000

    ciao,

    Marco
    www.imente.it/wbstat
    Richiama la specifica Browser.Type della classe.
    Se 1 allora è un robot.

  9. #9
    Grazie a tutti x la vostra disponibilità. Credo che WEPPOS mi ritenga un completo def**** perchè, mettendo a disposizione in modo assolutamente gratuito uno strumento fantastico, completo e perfettamente funzionante ed efficiente come il suo, io mi ostino ancora a voler fare di testa mia rompendo le p**** sul forum con le mie domande... ma la mia è una questione di principio

    comunque mi sono rassegnato ed ho seguito il consiglio di Ohmnibus (in realtà ci avevo pensato già prima ma avevo rifiutato l'idea perchè troppo 'laboriosa'....); alla fine ho creato 3 tabelle nel db: 1 con i browser(id_browser, 'impronta', descrizione e file_logo), 1 con i sistemi operativi (analogo browser) ed 1 con gli spider; in ogni pagina del sito è includo un file asp chiamato sniffing che fa una cosa del genere:

    apre RSet tabella browsers
    x ogni record: se instr(http_user_agent,impronta) > 0 allora
    browser = descrizione
    spider = "No"

    idem x sistemi operativi

    apre RSet tabella spiders
    x ogni record: se instr(http_user_agent,impronta) > 0 allora
    spider = "Si"

    ...non ho ritenuto necessario inserire un campo di descrizione degli spider, non voglio sapere chi sono ma solo 'cosa' sono!

    nelle statistiche c'è una sezione che mi elenca tutti gli accessi (raggruppati per httpUA) classificati come spider; se mi accorgo che in realtà c'è un accesso non spider (perchè il SO o il Bowser non è inserito nelle tabelle), modifico le relative tabelle (per ogni tabella posso chiaramente inserire, modificare o eliminare record); ad ogni aggiornamento di una delle 3 tabelle (e solo in tali casi!) l'intero log degli accessi viene 'ripassato' automaticamente tramite uno script simile allo script di sniffing che prende ogni accesso, legge l'httpUA e 'lavora' con i parametri passati dalle tabelle, eventualmente modificando i campi browser, so e spider (con l'ultimio che è un campo binario Si/No).

    finisco di implementarla, la testo qualche giorno poi ti faccio sapere. Ciao e ANCORA GRAZIE!!!

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.