Ciao a tutti, e complimenti per il bel forum.
Mi trovo a dover costruire un rudimentale motore di ricerca per immagini su pagine html.
Il criterio è quello di indicizzare le immagini mediante il testo "adiacente" ad esse.
Questo significa che, se in una pagina html da indicizzare vicino all'immagine x compare il termine y, immettendo come termine di ricerca "y", devo ottenere in risposta dal sistema (tra le varie pagine) anche quella contenente x.
Il mio problema è però il seguente: non essendo molto esperto di html, mi chiedo questo:
se in una pagina html visualizzata da un browser, del testo compare vicino ad una certa immagine, andando a guardare il codice html, troverò effettivamente quel testo "vicino" all'immagine?
La mia idea di risposta, a cui vorrei trovare conferme/smentite su questo forum, è quello di considerare l'albero della pagina html, localizzare i nodi tag <img>, ed estrarre il testo dei nodi "circostanti", come ad esempio il nodo padre, o i nodi fratelli.
Può essere questo un buon criterio, che mi permetta effettivamente di estrarre il testo che realmente compare nella visualizzazione della pagina, adiacente ad una data immagine?
Esiste un modo diverso e/o più efficace di fare questo?
E' effettivamente un'idea valida la mia?
Grazie a tutti per qualsiasi suggerimento!
Ciao!