Estrarre dalla pagina HTML informazioni

**zar1978** · 28-09-2009, 14:29

Salve a tutti. Vengo subito al dunque. Mi servirebbe scrivere un algoritmo che sia capace di valutare il contenuto semantico di una pagina web.
Il mio dominio applicativo è l'elenco di tutte le aziende italiane che hanno un sito web. Per contenuto semantico intendo, il nome dell'azienda, l'indirizzo, i contatti, il settore merceologico etc etc.
Per realizzare il mio scopo ho utilizzato l'espressioni regolari, (tramite Apache UIMA) per estrarre dal testo le informazioni significative (come numeri di telefono, mail, indirizzi etc etc).
Il problema sorge per la "ragione sociale" dell'impresa. Utilizzando una semplice espressione regolare non riesco ad estrarre da una pagina html (ripulita dei tag) le informazioni che mi servono. Ho pensato allora di realizzare un algoritmo che sfruttando il contenuto di alcuni tag significativi della pagina stessa (TITLE, ANCHOR, DESCRIPTION, etc etc) e unendo a quest'analisi, una statistica sulla presenza delle parole nella pagina (classificandole per frequenza), riesca ad estrapolare dal testo la ragione sociale. Ma ancora il risultato non mi convince.
Qualcuno ha qualche idea valida? In sostanza il problema è il seguente:
"Data una pagina web rappresentante un'azienda italiana, verificare se in essa è contenuta la ragione sociale ed estrarla"
Grazie

**ricman** · 29-09-2009, 09:00

L'html non è un linguaggio dinamico. Non puoi fare nulla.
Ti serve della programmazione.
Vai a cercare un po' nel forum del php. Una volta ne parlammo... ora non ricordo al volo ma si trattava proprio di estrarre i testi da un sito..

**zar1978** · 29-09-2009, 09:52

Grazie per la risposta, controllerò nel forum sul PHP. In effetti avevo messo in conto di scrivere del codice "intelligente". Il mio però era più che altro un problema algoritmico. Mi serviva una metodologia per estrarre la ragione sociale all'interno della pagina web. Molto spesso i webmaster inseriscono la ragione sociale all'interno del TITLE di una pagina, altre volte compare nel copyright, altre ancora nei meta etc etc. Visto che non sono molto ferrato in html, pensavo che qualcuno più esperto di me, potesse indicarmi altre modalità per inserire nella pagina HTML la ragione sociale di un'impresa.

**ricman** · 29-09-2009, 11:03

Originariamente inviato da zar1978
Molto spesso i webmaster inseriscono la ragione sociale all'interno del TITLE di una pagina, altre volte compare nel copyright, altre ancora nei meta etc etc.
... ...
potesse indicarmi altre modalità per inserire nella pagina HTML la ragione sociale di un'impresa.

Hai ragione... In teoria ci sono dei tag dedicati. Però li vedo usare molto poco...
E ora che ho capito meglio il tuo problema puoi anche lasciar perdere la ricerca che ti avevo proposto.
Tu non hai mille pagine uguali da cui estrarre i un pezzo di codice, ma hai "mille" siti diversi da cui estrarre, ad esempio, un ragione sociale... Giusto?
Se è così dotati di pazienza, occhio e voglia di scrivere a mano

**zar1978** · 29-09-2009, 15:38

Si esattamente. Hai inquadrato il problema. Analizzo migliaia di pagine web e devo essere in grado di estrapolare dal testo la ragione sociale. Non riuscendo a trovare un metodo immediato, avrei pensato di utilizzare WHO-IS interrogandolo sulla base del dominio. Potrebbe essere una soluzione ma non so se si tratta della migliore....

**ricman** · 29-09-2009, 16:20

Originariamente inviato da zar1978
Si esattamente. Hai inquadrato il problema. Analizzo migliaia di pagine web e devo essere in grado di estrapolare dal testo la ragione sociale. Non riuscendo a trovare un metodo immediato, avrei pensato di utilizzare WHO-IS interrogandolo sulla base del dominio. Potrebbe essere una soluzione ma non so se si tratta della migliore....

Per prima cosa penso che qui http://www.garanteprivacy.it da qualche parte ti dicano che non puoi andare in giro a prendere i dati della gente.
Infatti devono essere "quelle ragioni sociali" a chiederti di iscriversi al tuo qualcosa... quindi avresti risolto alla radice...

Per seconda cosa se riesci a crearti una regola utilizzando sempre lo stesso sito di whois ricontrolla i nomi forniti. Spesso molte web agency mettono il proprio nome nell'owner (illegale anche questo, ma c'è) al posto di quello del committente reale..

**zar1978** · 29-09-2009, 17:47

Non è certa mia intenzione violare la legge. La mia idea di partenza era di utilizzare il testo contenuto nella pagina e quindi reso pubblico a tutti, ma mi sono reso conto che da solo non basta. E' molto difficile adattare ad un algoritmo, (e quindi fallo eseguire ad una macchina) i ragionamenti che noi "umani" applichiamo quando leggiamo una pagina web e identifichiamo in essa delle categorie per il suo contenuto...

**ricman** · 30-09-2009, 04:31

Originariamente inviato da zar1978
Non è certa mia intenzione violare la legge.

No? E che ne avresti dei dati recuperati senza consenso?

**Vincent.Zeno** · 30-09-2009, 12:33

Originariamente inviato da ricman
No? E che ne avresti (faresti?) dei dati recuperati senza consenso?

cerchiamo di non strafare, ric

recuperare i dati che sono pubblici, in quanto già pubblicati non è illecito.
quello che ci fa è un'altro pronlema, e non si può presumere che ne faccia un uso improprio

"rimaniamo sul pezzo"

**ricman** · 30-09-2009, 13:44

Originariamente inviato da Vincent.Zeno
"rimaniamo sul pezzo"

Ok ... però ...

Originariamente inviato da Vincent.Zeno
recuperare i dati che sono pubblici, in quanto già pubblicati non è illecito.
quello che ci fa è un'altro pronlema, e non si può presumere che ne faccia un uso improprio

... non mi dire che uno si fa un *ulo così per recuperare tutti quei dati solo per tenerseli in tasca...
Come faccio a darmi torto? Se non gli rilasciano il consenso non può usarli in nessun modo

Cmq forse sono io... Al giorno d'oggi sono sempre più portato a pensare male della gente...
Chiedo scusa per i miei preconcetti maligni

Riguardo alla soluzione però... non ho nulla da aggiungere, se non quella di estrarre come può e poi elaborasi i dati in "semi-automatico" con uno spreedsheet qualsiasi...

Discussione: Estrarre dalla pagina HTML informazioni

Strumenti discussione

Ricerca discussione

Visualizza

Estrarre dalla pagina HTML informazioni

Permessi di invio