Visualizzazione dei risultati da 1 a 10 su 10
  1. #1
    Utente di HTML.it
    Registrato dal
    Jun 2001
    Messaggi
    71

    robots.txt e motori di ricerca

    ciao ragazzi,
    ho un file log degli accessi dei bot sul mio sito.

    Ho notato che il motore, per esempio psbot (http://www.picsearch.com/bot.html) mi prende le immagini e se le salva nel suo db.
    Ora siccome mi viene consumata la banda, ormai preziosa, mi conviene mettere il motore in black list nel mio sito?

    Voi cosa consigliate? Vi sono altri motori che mettereste in blak list? Come quelli che cercano solo le immagini? Incorrerò ad una perdita di visitatori se black listo qualche motore?

    ciao a presto e grazie per i vostri consigli

  2. #2
    Utente di HTML.it
    Registrato dal
    Apr 2002
    Messaggi
    5,710

    questi li puoi escludere tutti

    12bot
    1klik.dk
    1nn
    abachobot
    abcdatos
    aberja
    aberta
    abot
    accoona
    acme
    acoon
    adb_web
    adsacomponent
    agentname
    ahoy
    aio
    aipbot
    aicsrobot
    aitcsrobot
    aleksika
    alkalinebOT
    almaden
    amsterdam
    answerbus
    anthillV1.1
    antibot
    anybrowser
    aol-iweng
    appie
    arachnoidea
    arachnophilia
    arale
    araneo
    araybOt
    architext
    architextspider
    aretha
    ariadne
    arks/1.0
    art-online
    asianetbot
    ask jeeves
    aspider
    aspinsider
    aspseek
    asterias
    asterias2.0
    astral.ro
    atlocal
    atn_worldwide
    atomz
    augurfind
    auresys
    avantgo
    awapclient
    ay-up
    backrub
    baiduspider
    bannana_bot
    battlebot
    bayspider
    bbot
    bdcindexer
    bdncentral
    becomebot
    big brother
    bjaaland
    black widow
    blackWidow
    blogbot
    bloodhound
    boitho
    booch
    bordermanager
    borg-bot
    bot
    boxseaboat
    braillebot
    bspider
    bumblebee
    cactvs
    calif
    cassandra
    cd34/0.1
    cdedicated
    cerberian
    chbot
    checkbot
    christcrawler
    churl
    cienciaficcion.net
    cipinetcot
    ciskit-fireball
    clara
    clushbot
    cmc/0.01
    cold fusion
    combine/
    comBot
    commoonity
    computingsite robi
    conceptbot
    conexcol
    confuzzledbot
    converacrawler
    coolbot
    cosmixcrawler
    cosmos
    cowbot
    crawl
    crawl_application
    crawler
    crawler@fast
    crawlpaper
    croccrawler
    crucial
    cusco
    custo
    cyberpilot
    cyberspyder
    cydral
    CydralSpider/
    dbot
    deepindex
    dell.sachsenprovider.de
    delphikompendium
    demozulator
    desertrealm.com
    deweb
    die blinde kuh
    dienstspider
    digger
    digimania
    digimarc
    diibot
    dlw3robot
    dnabot
    docomo
    downLoad express
    dragonbot
    drebaie
    dual proxy
    dumbot
    duppies
    dwcp
    earthcom.
    ebiness
    ebot
    echo!/2.0
    eit-link-verifier-robot
    elfinbot
    elm@r
    emacs
    emailSiphon
    emc spider
    enterprise_search
    esculapio
    esirover
    esismartSpider
    esther
    euba
    eule-robot
    eunetch-crawler
    euripbot
    eurosoft-bot
    evliya
    exabot
    exactseek
    explorersearch
    falcon
    fast enterprise crawler
    fastbot
    fastcrawler
    fast-Webcrawler
    fast-webcrawler
    faxobot
    fdse
    fehlstart
    felixide
    fetcher
    fido
    findlinks
    firefly
    firstpage
    fish-search-robot
    flickbot
    fluffy the spider
    fluorine
    fouineur
    freecrawl
    frogee
    frooglebot
    funnelweb
    gais robot
    galaxy.com
    galaxyBot
    gammaspider
    gate.eds.de
    gatherer
    gazz
    gcreep
    generic
    geobot
    geonabot
    gestalticonoclast
    getbot
    getrax
    getright
    getterroboplus
    geturl
    gigabot
    girafabot
    goforit
    goforit.com
    golem
    googlebot
    grabber
    grapnel
    green research
    gregbot
    griffon
    gromit
    grub
    grub-client
    gulliver
    gulper
    gulperbot
    hämähäkki
    hambot
    harvest
    hatena
    havindex
    hazel
    hbot
    heise
    henrythemiragorobot
    hget
    hitwise
    holmes
    homer
    hometown
    htdig
    html_analyzer
    htmlgobble
    httpcheck
    httpconnect
    httrack
    ia_archiver
    iagent
    iajabot
    ianett
    ibm_planetwide
    ichiro
    iconsurf
    ics
    iltrovatore
    image.kapsi.net
    imagefetch
    incywincy
    indexer
    indy library
    inelabot
    infong
    informant
    infoseek
    infospiders
    ingrid
    inktomi
    innerprisebot
    insitor
    inspectorwww
    internetseer
    internet cruiser robot/2.1
    ipiumbot
    irlbot
    iron33
    israelisearch
    ivia
    jaan
    jakarta
    java/
    javabee
    jbot
    jcrawler
    jeeves/teoma
    jetbot
    jobo
    jobot
    joebot
    john doe
    jubiirobot
    jumpstation
    katipo/
    kdd-explorer/
    kit_fireball
    knowledge
    konqueror
    ko_yappo_robot
    kulokobot
    labelgrab
    lachesis
    lambdamoo
    larbin
    legs
    lcabotaccept
    libwww-perl
    linkchecker
    linkidator
    linklint
    linkscan
    linkwalker
    lockon
    lwp
    lwp-trivial
    lycos_spider
    lycos/
    m/3.8
    magpie
    mantraagent
    mars75
    marvin
    mediafox
    mediapartners
    mediatex-robot
    medienmeile
    meet.de
    megawerbung
    mercator
    merzscope
    mfhttpscan
    microsoft url control
    microsoftprototypecrawler
    mindcrawler
    mirago
    mj12
    moget/
    momspider
    monster
    motor/0.2
    mouse.house
    msnbot
    muncher
    muninn
    muscatferret
    mwdsearch
    my little bot
    myweb
    namecrawler
    nameprotect
    nameservices
    nationaldirectory-webspider
    naverBot
    naverrobot
    nbot
    ncsa beta
    ndspider
    nec-meshexplorer
    nederland.zoek
    netcarta
    netmechanic
    netresearchserver
    netscoop
    netsearch
    newscan-online
    ng/
    nhsewalker
    nomad
    northernlight
    northstar
    novartis
    npbot
    nutch
    nutchcvs
    objectssearch
    obot
    occam
    omniexplorer_bot
    ontospider
    openfind
    orbsearch
    osis-project
    packrat
    pageboy
    patric
    parasite
    pbwf
    pear.
    peerbot
    pegasus
    peregrinator-mathematics
    perlcrawler
    pgp-ka
    phantom
    phpdig
    piltdownman
    pimptrain
    pioneer
    planetsearch
    plumtreewebaccessor
    poc24
    polybot
    pompos
    poppelsdorf
    poodle predictor
    poppi
    portalbspider
    portaljuice
    prassosunner
    python-urllib
    psbot
    rabaz
    rambler
    rambot
    raven-v2
    rbot
    rbse
    relevare
    rhcs
    rixbot
    road runner
    robbie
    robocrawl
    robofox
    robot
    robot@idealab.com
    robozilla
    rockbot
    root/0.1
    roverbot
    rules
    safetynet
    sbot
    scooter
    scoutmaster
    scrubby
    searchhippo
    searchmaster@skymob.com
    searchprocess
    seekbot
    seeker
    senrigan
    seventwentyfour
    sg-scout
    shagseeker
    shai'sulud
    shai'hulud
    sharp-info-agent
    sherlock
    sidewinder
    simbot
    simple/5.63
    site valet
    sitesnagger
    sitetech-rover
    slcrawler
    sleek
    slurp
    slurp@inktomi.com
    smartwit
    snooper
    snoopy
    sohu
    solbot
    speedy
    spider
    spider2-uu.wisewire.com
    spiderbot
    spiderline
    spiderman
    spiders2
    spiderview
    spiff
    spinne
    spoeder
    spry
    spyder
    ssearcher100
    statbot
    steeler/
    steroid
    suchbaer
    suchass-bot
    suke
    suntek
    superbot
    supersnooper
    surveybot
    swisssearch
    sygol
    szukacz
    tarantula
    tarspider
    taurus
    techbot
    templeton
    tencent
    teoma
    thumbshots-de-bot
    t-h-u-n-d-e-r-s-t-o-n-e
    tipps-tricks.net
    titan
    titin
    tlspider
    topsubmit
    tulipchain
    turnitinbot
    tutorgig
    tutorgigbot
    ucsd-crawler
    udmsearch
    ultraseek
    unido-bot
    uptimebot
    uranus
    urlck
    url-minder
    vagabondo
    validator
    valkyrie
    verticrawl
    vfa/1.0 libwww/5.0a
    victoria
    vision-search
    void-bot
    voilabot
    volcano
    voyager
    vwbot_k
    w@pspider
    w3c_validator
    w3index
    w3m2
    w3mir
    weatherbot
    webbandit
    webcatcher
    webcopy
    webcrawl.net
    webcrawler
    webfetcher
    weblayers
    weblinker
    webmirror
    Webmoose
    webquest
    webreaper
    web_robot
    webs@recruit.co.jp
    websitepulse
    websnarf
    webspider
    webvac
    webverzeichnis
    webwalk
    webwalker
    webwatch
    webzinger
    wget
    whatuseek_winona
    wired-digital-newsbot
    wisenutbot
    wlm-1.1
    wmp/
    wolp
    worldlight
    worm
    wwwc
    wwweasel
    wwwster
    wwwoffle
    wwwwanderer
    xenu
    xget/0.7
    yahoo! slurp
    yahoo.com
    yahoo-mmcrawler
    ybot
    zao/
    zao-crawler
    zeus 2.6
    zippp
    zoidberg
    zyborg
    java
    php
    mmmmmmmmmmmmmmappinnnn...

  3. #3
    Utente di HTML.it
    Registrato dal
    Jun 2001
    Messaggi
    71
    come scusa? escludo googlebot e yahoo! slurp ?
    e da dove ricevo le visite?

  4. #4
    Utente di HTML.it
    Registrato dal
    Apr 2002
    Messaggi
    5,710

    E UGUALE TANTO non seguono il txt...prendono i meta,

    ma se hai paura escludu chi Non ti piace,ma non lamentarti sulla banda
    mmmmmmmmmmmmmmappinnnn...

  5. #5

    Re: E UGUALE TANTO non seguono il txt...prendono i meta,

    [supersaibal]Originariamente inviato da key
    ma se hai paura escludu chi Non ti piace,ma non lamentarti sulla banda [/supersaibal]
    Beh, sei te che hai il pòroiblema della Banda...

    Hai sul Piatto della bilancia: BANDA/ACCESSI
    Da quale parte vuoi farla pendere?

  6. #6
    Utente di HTML.it
    Registrato dal
    Jun 2001
    Messaggi
    71

    Re: Re: E UGUALE TANTO non seguono il txt...prendono i meta,

    [supersaibal]Originariamente inviato da Ricky78
    Beh, sei te che hai il pòroiblema della Banda...

    Hai sul Piatto della bilancia: BANDA/ACCESSI
    Da quale parte vuoi farla pendere? [/supersaibal]
    volevo sapere soltanto quali motori era inutili che mi indicizzassero il sito.

    Per esempio quelli ke prendono immagini etc. Che vantaggio ne hanno?

    grazie ciaoo

  7. #7
    Utente di HTML.it
    Registrato dal
    Sep 2001
    Messaggi
    6,034
    bè c'è chi ricerca un determinato tipo di immagini e se trova quelle del tuo sito ti fa una visitina cercandone delle altre

  8. #8
    i vantaggi sono che offrono pure quel servizio
    se io devo cercare delle immagini vado diretto su GG,
    se GG non offrisse questo servizio... avrebbe un utente in meno.

  9. #9
    Utente di HTML.it
    Registrato dal
    Aug 2001
    Messaggi
    122
    Ma porca miseria credo che uno di questi spider (Exabot) sia la causa di un incremento del consumo di banda del mio sito. Da questa notte alla 1 ad ora(16.5), mi ha sgremato 15GB di banda.
    A voi è mai successo?

  10. #10
    Utente di HTML.it L'avatar di Evi|A|ivE
    Registrato dal
    Jun 2002
    Messaggi
    2,171
    [supersaibal]Originariamente inviato da lycia
    Ma porca miseria credo che uno di questi spider (Exabot) sia la causa di un incremento del consumo di banda del mio sito. Da questa notte alla 1 ad ora(16.5), mi ha sgremato 15GB di banda.
    A voi è mai successo? [/supersaibal]
    si, ragion per cui ho aperto un topic a riguardo ma nn se l'è filato quasi nessuno e da due giorni qui si parla solo di robots.. nn è giusto!
    cmq ok il disallow.. ma visti i tempi sarebbe stato meglio un semplice.. ALLOW ^^
    [Disclaimer: le | nel nome non son li per far figo, evito solo di trovarmi spammato il nick nelle millemila pagine del forum in serp ..]

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.