Google e problemi indicizzazione PDF

**WarriorXP** · 31-01-2009, 12:40

Salve gente.. Ho fatto una ricerca ma non ho trovato risposta alla mia domanda, che quindi pongo qui.

Ho un sito molto snello in cui, nella sezione principale, ci sono dei links a documenti PDF. La struttura è questa

/ --> /papers.php

In papers.php questi link sono del tipo download.php?id=... in modo tale che cliccando sul link compaia una pagina "Il download si avvierà entro 5 secondi.. Se non dovesse accadere puoi cliccare qui (= link DIRETTO AL PDF)", con redirect gestito in PHP.

Ora.. Google sembra non indicizzare questi pdf (molto piccoli, una decina di pagine ciascuno al massimo): è colpa della struttura dei download? Non credo perché un link diretto per li spider è fornito nella pagina download.php?id=.. Magari è colpa del redirect in PHP che crea problemi allo spider? O magari devo semplicemente aspettare (gli altri contenuti del sito però sono stati aggiornati nelle ricerche)?

**weppos** · 01-02-2009, 15:39

Prova a lanciare il tool XENU sul tuo sito e vedi se il tool riesce a risconoscere i pdf.
Per scrupolo potresti creare una sitemap XML contenente anche i file .pdf nell'elenco.

**WarriorXP** · 01-02-2009, 17:15

Uhm.. No, non li vede.. Nel senso che si "ferma" alla pagine in cui si avvia automaticamente il download.. Però non capisco perché dal momento che in queste pagine c'è anche il link al PDF! C'è un normalissimo redirect Javascript quindi non dovrebbe dare problemi..

**weppos** · 01-02-2009, 17:16

Proverò a mettere un redirect Javascript

Peggio ancora.

**WarriorXP** · 01-02-2009, 17:19

No comunque ho controllato e il redirect è già javascript.. Mi sono confuso con un altro script in cui il redirect è PHP..

E' un semplicissimo

codice:

<script type="text/javascript"> 
var downloadLocation = '<?php echo $_GET['doc']; ?>'; 
window.onload = function () {
  t = setTimeout('document.location = downloadLocation', 3500); 
} </script>

Perché dovrebbe dare problemi? E cosa usare al suo posto per non avere conflitti con gli spider?

**weppos** · 01-02-2009, 17:39

Originariamente inviato da WarriorXP
Perché dovrebbe dare problemi? E cosa usare al suo posto per non avere conflitti con gli spider?

Il perché lo hai scoperto tu stesso: il file target non viene trovato.
Usa un redirect server side.

**WarriorXP** · 01-02-2009, 17:46

Originariamente inviato da weppos
Il perché lo hai scoperto tu stesso: il file target non viene trovato.
Usa un redirect server side.

Quindi dici di mettere un header("Location: ...") bypassando la pagina di attesa del download (se non ricordo male funziona a condizione che a schermo non sia stampato nulla)? Altrimenti potrei mettere nella pagina con l'elenco dei papers direttamente l'URL corretto e lavorare di onclick e javascript per conteggiare i download in Analytics (è solo per questo che uso una pagina di intermezzo

)..

Comunque, giusto per curiosità, perché dovrebbe essere un problema che il target JS non è trovato dal momento che nella pagina oltre al redirect JS c'è anche l'URL completo con link <a>?

Discussione: Google e problemi indicizzazione PDF

Strumenti discussione

Ricerca discussione

Visualizza

Google e problemi indicizzazione PDF

Permessi di invio