Salve, per caso siete a conoscenza di una libreria java che, una volta fornito la stringa del codice HTML di una pagina, riesca a far tornare un vettore di stringhe equivalente alle parole chiave trovate in tutto il contenuto? sono ore che giro su google ma non riesco a trovare niente che fa al caso mio.
ho trovato uno script molto bello ma è per php:
http://nadeausoftware.com/articles/2...words_web_page
- aggiunge spazi vuoti alla fine dei tag html per prevenire l'unione di stringhe quando il tag verrà rimosso
- rimuove i tag html
- rimuove i caratteri speciali, numeri, percentuali
- decodifica le lettere in html entities in caratteri normali
- conta la ripetizione delle parole
Ma non riesco a trovare qualche cosa per il java sapete come aiutarmi?
Grazie mille!


Rispondi quotando
effettivamente non avevo premesso che non sono molto pratico di java, ho deciso di portare parte della mia applicazione su questo linguaggio per sfruttare i Thread e analizzare centinaia di pagine html nel minor tempo possibile.