testo e immagini

**DjL** · 21-08-2006, 10:55

Ciao a tutti, e complimenti per il bel forum.
Mi trovo a dover costruire un rudimentale motore di ricerca per immagini su pagine html.
Il criterio è quello di indicizzare le immagini mediante il testo "adiacente" ad esse.
Questo significa che, se in una pagina html da indicizzare vicino all'immagine x compare il termine y, immettendo come termine di ricerca "y", devo ottenere in risposta dal sistema (tra le varie pagine) anche quella contenente x.
Il mio problema è però il seguente: non essendo molto esperto di html, mi chiedo questo:

se in una pagina html visualizzata da un browser, del testo compare vicino ad una certa immagine, andando a guardare il codice html, troverò effettivamente quel testo "vicino" all'immagine?

La mia idea di risposta, a cui vorrei trovare conferme/smentite su questo forum, è quello di considerare l'albero della pagina html, localizzare i nodi tag <img>, ed estrarre il testo dei nodi "circostanti", come ad esempio il nodo padre, o i nodi fratelli.

Può essere questo un buon criterio, che mi permetta effettivamente di estrarre il testo che realmente compare nella visualizzazione della pagina, adiacente ad una data immagine?

Esiste un modo diverso e/o più efficace di fare questo?

E' effettivamente un'idea valida la mia?

Grazie a tutti per qualsiasi suggerimento!
Ciao!

**salasir** · 21-08-2006, 11:12

La prima cosa che mi viene in mente, è che in una pagina html, il testo che "circonda" l'immagine può non essere significativo per associare la stessa ad un "cartellino" per le ricerche.

Secondo me la cosa + vicina ad un'immagine potrebbero essere gli attributi "alt" e/o "title", più facilmente reperibili (tra l'altro "alt" è obbligatorio) e, se inseriti correttamente, dovrebbero contenere un'identificazione + vicina al soggetto dell'immagine.

**DjL** · 21-08-2006, 11:17

Ciao salasir, innanzitutto grazie per la pronta risposta!

Anche io pensavo la stessa cosa, ma il problema è che quasi nessuno usa gli attributi alt e title, e spesso chi li usa li usa in maniera sbagliata!

Quindi questa può essere un'aggiunta per arricchire il sistema, ma l'indicizzazione di base purtroppo deve essere quella fatta sul testo adiacente.

Infatti questo è quanto mi è stato richiesto, e sono oltremodo d'accordo con te che il testo adiacente ad un'immagine non rispecchia (secondo me quasi mai) il contenuto dell'immagine stessa!

In sintesi, userò anche alt e title, ma devo purtroppo, da richiesta, indicizzare mediante testo adiacente.

Grazie ancora!

Discussione: testo e immagini

Strumenti discussione

Ricerca discussione

Visualizza

testo e immagini

Permessi di invio