Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 14
  1. #1
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274

    [google crawler] vallo a capire..

    Crawler di Google, poco fa (anzi, ora).

    23:10:29 /data/1758~Articles.php
    23:16:42 /data/656~SiteStaff.php
    23:19:43 /data/643~Ranger.php
    23:23:13 /data/273~Warrior.php
    23:27:09 /data/187~Links.php
    23:31:23 /data/1684~Combat.php

    Quegli URL non esistono.
    Sono URL di un concorrente. Ed è pure un 'pezzo grosso'.. mentre il mio è un sitino da due soldi, forse meno.

    Controlli di routine per verificare se il sitino è una doorway del sitone?

  2. #2
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    Aggiungo, ora usa le URL di un altro competitor (più pezzo grosso ancora..).

  3. #3

  4. #4
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    L'orario mi fa diventare , l'avevo scritto e l'ho cancellato senza accorgermene.

    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Lo stesso IP ( 66.249.65.137 ) tra un 404 (sì, perchè sono quelli gli HTTP CODE che riceve) e l'altro cambia UA e diventa
    Googlebot-Image/1.0

    Non ci capisco più nulla
    (e domani vi dico quanti hits ha fatto.. è da questa mattina che lavora come un matto)

  5. #5
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    Ok, fatto qualche analisi sui log di ieri.

    (code per avere un minimo di impaginazione)
    codice:
    Hits // User Agent
    1154 	Googlebot/2.1 (+http://www.google.com/bot.html)
    253 	Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    89 	Googlebot-Image/1.0
    
    Http Code 404 // User Agent
    26	404 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    9	404 Googlebot-Image/1.0
    2 	404 Mediapartners-Google/2.1

    Per quanto riguarda le 404 c'è da notare che:
    a) è una custom 404;
    b) ho controllato più volte e sono arcisicuro che non c'è un 'link' agli url puntati dal bot;
    c) non uso adsense sulla 404 (potrei farci un pensierino.. prevedo anche un click rate pazzesco :P ), mi pare strano che qualcuno utilizzi l'anteprima adsense su una pagina d'errore - io non l'ho certamente fatto (ho fatto controlli giusto per pignoleria);
    d) per quanto riguarda i 404 relativi a Goooglebot-Image vale la stessa cosa di b).

    Idee in merito?
    /me si guarda intorno alla ricerca di weppos

    /banned

  6. #6
    Non credo che google effettui questo tipo di controlli.
    Sarei più propenso a pensare che lo spider abbia seguito
    1. un utente
    2. un link

    Hai modo di verificare se ci sono state visite a quelle pagine da altri client che assomigliassero ad un utente?

  7. #7
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    [supersaibal]Originariamente inviato da weppos
    Non credo che google effettui questo tipo di controlli.
    Sarei più propenso a pensare che lo spider abbia seguito
    1. un utente
    2. un link

    Hai modo di verificare se ci sono state visite a quelle pagine da altri client che assomigliassero ad un utente? [/supersaibal]
    Gia controllato (ho il footer con lo script di php-stats incluso nella 404) e l'unico utente che è stato in quelle pagine sono io, dopo che c'è passato google.
    Per scrupolo ho comunque dato un'occhiata anche sui log di tutto febbraio e niente neppure lì.

    Il link.. Mi pare strano che qualcuno punti a pagine interne mai esistite (ripeto, sono pagine di 2 competitors) e con dei semplici controlli - cercando su google, appunto - risultano esistere solo sui siti dei competitors -> ~ nn è molto comune, la ricerca dura poco.

  8. #8
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    Ah, altra cosa 'interessante' che mi è saltata fuori mentre guardavo quei log.. si inventava anche le query string per il search interno al sito. ^_^

  9. #9
    [supersaibal]Originariamente inviato da banned
    Ah, altra cosa 'interessante' che mi è saltata fuori mentre guardavo quei log.. si inventava anche le query string per il search interno al sito. ^_^ [/supersaibal]
    Dubito che sia uno spider, ma sono fortemente indirizzato a pensare che sia un utente travestito.

  10. #10
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    >Dubito che sia uno spider, ma sono fortemente indirizzato a pensare che sia un utente travestito

    L'ho pensato anche io, ma i due IP usati per la sfilza di 404 sono di google

    66.249.66.12
    66.249.65.137

    Senza contare che NON faceva un GET per le immagini e per i css (sì, ho le immagini anche sulla 404 ).. anche se forse questo sì può fare tranquillamente con un browser testuale come lynx.
    MA fondamentale.. che genere di utente può fare tutto questo lavoraccio per controllare un sitino inutile (l'ho gia detto che vale due soldi, forse meno? :P)?

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.