Salve a tutti. Vengo subito al dunque. Mi servirebbe scrivere un algoritmo che sia capace di valutare il contenuto semantico di una pagina web.
Il mio dominio applicativo è l'elenco di tutte le aziende italiane che hanno un sito web. Per contenuto semantico intendo, il nome dell'azienda, l'indirizzo, i contatti, il settore merceologico etc etc.
Per realizzare il mio scopo ho utilizzato l'espressioni regolari, (tramite Apache UIMA) per estrarre dal testo le informazioni significative (come numeri di telefono, mail, indirizzi etc etc).
Il problema sorge per la "ragione sociale" dell'impresa. Utilizzando una semplice espressione regolare non riesco ad estrarre da una pagina html (ripulita dei tag) le informazioni che mi servono. Ho pensato allora di realizzare un algoritmo che sfruttando il contenuto di alcuni tag significativi della pagina stessa (TITLE, ANCHOR, DESCRIPTION, etc etc) e unendo a quest'analisi, una statistica sulla presenza delle parole nella pagina (classificandole per frequenza), riesca ad estrapolare dal testo la ragione sociale. Ma ancora il risultato non mi convince.
Qualcuno ha qualche idea valida? In sostanza il problema è il seguente:
"Data una pagina web rappresentante un'azienda italiana, verificare se in essa è contenuta la ragione sociale ed estrarla"
Grazie