Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 14
  1. #1

    robot.txt e vari user agent che grabbano i siti

    User-agent: Teleport
    Disallow: /

    User-agent: TeleportPro
    Disallow: /

    User-agent: Teleport\ Pro
    Disallow: /

    User-agent: TelePort Pro
    Disallow: /

    User-agent: WebZip
    Disallow: /

    User-agent: WebReaper
    Disallow: /

    User-agent: WebZip/4.0
    Disallow: /

    User-agent: Wget
    Disallow: /

    User-agent: Wget/1.5.3
    Disallow: /

    User-agent: Wget/1.6
    Disallow: /

    User-agent: Zeus
    Disallow: /

    User-agent: Zeus 2.6
    Disallow: /

    User-agent: Zeus Link Scout
    Disallow: /

    User-agent: Zeus.*Webster
    Disallow: /

    User-agent: Zeus 32297 Webster Pro V2.9 Win32
    Disallow: /


    User-agent: *
    Disallow: /img/
    Disallow: /images/

  2. #2
    Ho dovuto realizzare una lista di questo genere visto che i miei siti sono spesso copiati. Se vi va di tenere aggiornato questo robot.txt con nuovi programmi che escono potrebbe essere un post interessante.

  3. #3
    Utente di HTML.it
    Registrato dal
    May 2004
    Messaggi
    274
    WebCopier
    Webcopier
    Webcopierv
    Teleport
    TeleportPro/
    WebZIP
    Wget
    CUrl
    curl
    curl/
    PagmIEDownload
    Pavuk
    pavuk
    pavuk/
    WebDownloader
    WebPix
    WebReaper
    WebStripper
    WebStripper/

    Credo che chi copi però solitamente lo faccia a mano

  4. #4
    Moderatore di foto/videocamere digitali ed elettronica hi-tech L'avatar di sparwari
    Registrato dal
    Jun 2004
    Messaggi
    7,667
    vi siete dimenticato del browser offline free più diffuso?
    http://www.httrack.com
    il suo nome è httrack , ma alcuni lo chiamano winhttrack e altri ancora webttrack

    cosa si deve mettere per bloccare questo?
    1... 2... 3... prova

  5. #5
    Utente di HTML.it
    Registrato dal
    Sep 2001
    Messaggi
    6,034
    io ho questa stringa:
    User-agent: WinHTTrack
    Disallow: /

  6. #6
    [B]Credo che chi copi però solitamente lo faccia a mano
    A me questa notte e varie altre volte mi hanno copiato il sito intero, 36Mb.

  7. #7
    Il problema è uno oslo.
    Molti dei siti sopra citati ignorano il robots.txt .

  8. #8
    Originariamente inviato da weppos
    Il problema è uno oslo.
    Molti dei siti sopra citati ignorano il robots.txt .
    quali siti ?

  9. #9

    a proposito di bot

    tra i vari user agent ho trovato questo

    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

    che sembrerebbe il bot di google che pero pensavo fosse questo
    Googlebot/2.1 (+http://www.google.com/bot.html)

    che vuol dire secondo voi?
    Manuel

    View my profile on LinkedIn
    Ubertini: amo solo te!

  10. #10
    Utente di HTML.it L'avatar di assia
    Registrato dal
    May 2002
    Messaggi
    1,181
    Il problema è uno oslo.
    Molti dei siti sopra citati ignorano il robots.txt .
    E oltretutto sono in grado di "impersonare" browser o user agent a scelta, come ad esempio Teleport.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.