PDA

Visualizza la versione completa : Spider & co


pinzino
03-01-2006, 19:25
Sto cercando di determinare tutti gli user agent che mi passano sul sito, il mio problema che voglio eliminare l'acceso a quei programmetti che scaricano per intero un sito.

Non riesco a trovare tutti gli user agent di questi antipatici programmi, potete aiutarmi con le vostre esperienze a trovarli?


Thanks!! :ciauz:

key
03-01-2006, 20:40
Others
There are robots out there that the database contains no details on. If/when I get those details they will be added, otherwise they'll remain on the list below, as unresponsive or unknown sites.
Services with no information
These services must use robots, but haven't replied to requests for an entry...

Magellan

User-agent field: Wobot/1.00
From: mckinley.mckinley.com (206.214.202.2) and galileo.mckinley.com.
(206.214.202.45)
Honors "robots.txt": yes
Contact: cedeno@mckinley.mckinley.com (or possibly:
spider@mckinley.mckinley.com)
Purpose: Resource discovery for Magellan (http://www.mckinley.com/)

User Agents
These look like new robots, but have no contact info...

BizBot04 kirk.overleaf.com
HappyBot (gserver.kw.net)
CaliforniaBrownSpider
EI*Net/0.1 libwww/0.1
Ibot/1.0 libwww-perl/0.40
Merritt/1.0
StatFetcher/1.0
TeacherSoft/1.0 libwww/2.17
WWW Collector
processor/0.0ALPHA libwww-perl/0.20
wobot/1.0 from 206.214.202.45
Libertech-Rover www.libertech.com?
WhoWhere Robot
ITI Spider
w3index
MyCNNSpider
SummyCrawler
OGspider
linklooker
CyberSpyder (amant@www.cyberspyder.com)
SlowBot
heraSpider
Surfbot
Bizbot003
WebWalker
SandBot
EnigmaBot
spyder3.microsys.com
www.freeloader.com.

Hosts
These have no known user-agent, but have requested /robots.txt repeatedly or exhibited crawling patterns.

205.252.60.71
194.20.32.131
198.5.209.201
acke.dc.luth.se
dallas.mt.cs.cmu.edu
darkwing.cadvision.com
waldec.com
www2000.ogsm.vanderbilt.edu
unet.ca
murph.cais.net (rapid fire... sigh)
spyder3.microsys.com
www.freeloader.com.

Enrico OLIVETTI
03-01-2006, 21:24
Io quando decido di scaricare un intero sito, mi presento come Internet Explorer e come referrer d la loro stessa home page.

Quindi bloccare certi referrer o user-agent serve a ben poco.

pinzino
04-01-2006, 09:07
Originariamente inviato da Enrico OLIVETTI
Io quando decido di scaricare un intero sito, mi presento come Internet Explorer e come referrer d la loro stessa home page.

Quindi bloccare certi referrer o user-agent serve a ben poco.

Poco sempre meglio di niente. Grazie cmq.

stefano3804
04-01-2006, 09:09
Originariamente inviato da Enrico OLIVETTI
Io quando decido di scaricare un intero sito, mi presento come Internet Explorer e come referrer d la loro stessa home page.

Quindi bloccare certi referrer o user-agent serve a ben poco.

se usi teleport ti blocco quello che voglio anche se usi simulatori di agent
esistono spider per i download molto pi sofisticati
Cmq ti consiglio di farlo lato server con script in php dove gli fai leggere tutte le pagine e le salvi in un db poi da li ci fai quello che vuoi . E' mooooolto pi veloce perche usa la connessione dell'host e non ti possono bloccare perch le istruzioni le passi tu

Ferro9
04-01-2006, 11:51
Chi vuol scaricare un sito normalmente ha un minimo di nozioni tecniche, e come dice Enrico credo sia praticamente impossibile impedirgli di farlo.

pinzino
04-01-2006, 14:18
..ma ipotiziamo invece che chi vuole scaricare il mio sito abbia una nozione non tecnicissima, per cui utilizza sofware commerciali per scaricare e visionare le pagine in locale. Quindi, anche copiarle ed utilizzarle per siti personali comodamente da casa. Vorrei appunto evitare che questo succedesse, per cui sto cercando gli useragent dei programmi (frteeware, opensource o commerciali) + utilizzati dall'utente medio/alto, perlomeno colui che capace di farsi un sito con parti di contenuti tratti dal mio.

So perfettamente che chiunque abbia delle nozioni + evolute pu copiarlo interamente senza che io possa gestirlo.


:ciauz:

Loading