Salve, per caso siete a conoscenza di una libreria java che, una volta fornito la stringa del codice HTML di una pagina, riesca a far tornare un vettore di stringhe equivalente alle parole chiave trovate in tutto il contenuto? sono ore che giro su google ma non riesco a trovare niente che fa al caso mio.
ho trovato uno script molto bello ma è per php:
http://nadeausoftware.com/articles/2...words_web_page
- aggiunge spazi vuoti alla fine dei tag html per prevenire l'unione di stringhe quando il tag verrà rimosso
- rimuove i tag html
- rimuove i caratteri speciali, numeri, percentuali
- decodifica le lettere in html entities in caratteri normali
- conta la ripetizione delle parole
Ma non riesco a trovare qualche cosa per il java sapete come aiutarmi?
Grazie mille!


Rispondi quotando