Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 12

Discussione: google robots.txt

  1. #1

    google robots.txt

    Ciao a tutti,
    ho usato il robots txt per evitare che i motori leggessero alcuni file e cartelle, guardando l'indicizzazzione su google mi sono accorto che mi ha indicizzato anche dei file che avevo specificato nel robots.txt, mi sembra impossibile...ma è così....
    codice:
    User-agent: *
    # Non voglio che i motori di ricerca ficchino il naso nelle seguenti directory e file.
    Disallow: /css/
    Disallow: /db_documents/
    Disallow: /edit_database/
    Disallow: /flash/
    Disallow: /images/
    Disallow: /include/
    Disallow: /js/
    Disallow: /mailinglist/
    Disallow: /mdb-database/
    Disallow: /restricted_area/
    Disallow: /st/
    Disallow: /temp/
    Disallow: /download/
    Disallow: /include/
    Disallow: /W3svc450/
    Disallow: /users_manager/
    Disallow: /admin.asp
    Disallow: /gfile.asp
    Disallow: /image.asp
    Disallow: /products.asp
    Disallow: /usedlaser.asp
    Disallow: /menusx.asp
    Disallow: /newsletter.htm
    Disallow: /homeup.htm



    www.lasercutinc.com



    suggerimenti?

    grazie...

  2. #2

    Re: google robots.txt

    Originariamente inviato da gguida
    Ciao a tutti,
    ho usato il robots txt per evitare che i motori leggessero alcuni file e cartelle, guardando l'indicizzazzione su google mi sono accorto che mi ha indicizzato anche dei file che avevo specificato nel robots.txt, mi sembra impossibile...ma è così....
    codice:
    User-agent: *
    # Non voglio che i motori di ricerca ficchino il naso nelle seguenti directory e file.
    Disallow: /css/
    Disallow: /db_documents/
    Disallow: /edit_database/
    Disallow: /flash/
    Disallow: /images/
    Disallow: /include/
    Disallow: /js/
    Disallow: /mailinglist/
    Disallow: /mdb-database/
    Disallow: /restricted_area/
    Disallow: /st/
    Disallow: /temp/
    Disallow: /download/
    Disallow: /include/
    Disallow: /W3svc450/
    Disallow: /users_manager/
    Disallow: /admin.asp
    Disallow: /gfile.asp
    Disallow: /image.asp
    Disallow: /products.asp
    Disallow: /usedlaser.asp
    Disallow: /menusx.asp
    Disallow: /newsletter.htm
    Disallow: /homeup.htm



    www.lasercutinc.com



    suggerimenti?

    grazie...
    Questa era una domanda per LOW, lui se ne intende di queste cose.
    Hai provato a leggerti il suo capitolo relativo ai robots.txt sul suo motoricerca.info?
    "Only the braves arrive where the angels cannot fly"
    Posizionamento nei motori di ricerca
    Promozione Italia
    Web Agency

  3. #3
    Utente di HTML.it
    Registrato dal
    Apr 2002
    Messaggi
    5,710

    che meta hai???

    mmmmmmmmmmmmmmappinnnn...

  4. #4

    Re: che meta hai???

    Originariamente inviato da key
    Buongiorno rivoluzionario..

    "Only the braves arrive where the angels cannot fly"
    Posizionamento nei motori di ricerca
    Promozione Italia
    Web Agency

  5. #5
    oggi e 14 e sono qui domani sara 15 e saro qui.....

    Un OT in questi giorni e concesso visto che siamo in questo momento

    MarcoTuscany, gik25, Fabio Dell'Orto, elpaso, giorgiotave

    consigli togli popup
    togli intro

    ma scusa tu metti il file robots.txt e poi

    <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"
    "http://www.w3.org/TR/html4/loose.dtd">
    <html><head>


    <title>.:: Lasercut, Inc ::. - Manufacturer of Laser Systems & Laser Machines - Cutting and Marking Applications</title>
    <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

    <META NAME ="description" CONTENT="Manufacturer of laser systems for metal cutting, dieboard cutting, plastic cutting, acrylic cutting and marking applications">

    <META NAME ="keywords" CONTENT="Lasercut, laser cutting systems, laser cutting machines, laser cutting, lasers, metal cutting, dieboard cutting, industrial lasers, plastic cutting, rotary dieboard systems, linear motors, Nd:YAG, CO2 marking systems, galvo technology">

    <SCRIPT LANGUAGE="JavaScript" type="text/javascript">
    self.moveTo(0,0);
    self.resizeTo(screen.availWidth,screen.availHeight );
    </SCRIPT>

    <script LANGUAGE="JavaScript" type="text/javascript" SRC="js/lasercut.js">

    </SCRIPT>
    <script LANGUAGE="JavaScript" type="text/javascript" >selectstyle()</SCRIPT>
    </head>


    scusa ma oltre al troppo javascript dov'e il meta tag che acompagna il robot? non lo vedo

  6. #6
    ma il meta ROBOTS e il file robots.txt non sono due metodi alternativi per indirizzare il bot?

    :master:

  7. #7
    Utente di HTML.it
    Registrato dal
    Apr 2002
    Messaggi
    5,710

    Dipende se ha follow o all ecc eccc

    mmmmmmmmmmmmmmappinnnn...

  8. #8

    Re: Dipende se ha follow o all ecc eccc

    Originariamente inviato da key
    Questa approfondiamola meglio, credo interessi a molti.
    Esempio, un sito così impostato:

    Presenza di robots.txt

    User agent: *
    Disallow:

    E presenza del meta index,follow solo in home page.

    Cosa comporta?
    Per me dice ai motori di indicizzare il tutto e di non lasciare niente a partire dall'index a seguire.


    E se invece in presenza dello stesso robots.txt
    avessi messo in home il meta all,follow
    non era lo stesso?
    "Only the braves arrive where the angels cannot fly"
    Posizionamento nei motori di ricerca
    Promozione Italia
    Web Agency

  9. #9
    e invece con robots.txt

    User-agent: *
    Disallow:

    e senza il meta robots?

  10. #10
    Utente di HTML.it L'avatar di fradefra
    Registrato dal
    Jul 2001
    residenza
    Montagnana (PD)
    Messaggi
    1,840
    La precedenza data da uno spider al robots.txt o al meta presente nella pagina è data solo da quello che lui stesso vuol fare.

    Vi ricordo che il protocollo Robots non è legge. Gli spider sono liberi di seguirlo o no, sì oggi e no domani!

    Se si usano, la cosa più corretta è che siano in sincronia tra loro. Certezze non ve ne sono e se qualcosa si sa, non si sa sino a quando varrà e per quali spider.

    La cosa più sicura, solo per quegli spider che hanno deciso di seguire il protocollo, è di inserire nel robots.txt un disallow per ogni pagina da escludere ed il meta corrispondente nella pagina stessa con la forma "Noindex,Follow". Questo garantisce che lo spider segua tutte le pagine, senza indicizzare quelle che non vogliamo. Il "nofollow" è pericolossissimo perchè se domani aggiungiamo dei link che vorremmo fossero seguiti, dovremmo cominciare a fare parecchi ragionamenti.

    Niente da aggiungere, invece, per le restanti pagine. Ogni pagina non esclusa dal robots.txt e senza alcun con meta robot è indicizzabile per default (se lo spider decide di farlo).
    Fradèfra Insight - Crescita professionale e personale
    Consulenza e corsi per la crescita imprenditoriale, professionale e personale, a distanza o in presenza.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.