Sto cercando di realizzare un piccolo programma che analizza un codice html e ne "estrae" i tag e le stringhe di testo. Per adesso ho scritto questo codice:
codice:
String codeHtml = "<html> <body> 

 Ciao Mondo </p> </body> </html>";
		
Pattern pat = Pattern.compile("(</?\\w+\\>) |  /*codice mancante*/");
Matcher mat = pat.matcher(codeHtml);
		
while(mat.find())
	System.out.println(mat.group());
codice:
Output:
<html> 
<body> 


 
</p> 
</body>
Con questo codice riesco ad "estrarre" solo i tag mentre il mio intento è quello di catturare anche le stringhe, nel mio esempio "Ciao Mondo". Come regular expression per definire ogni tipo di stringa avevo pensato a qualcosa del genere:
codice:
.+//<
Il problema che in questo modo mi viene catturato anche il carattere <, mentre io vorrei solo indicare il fatto che la stringa si conclude con quel carattere.

Spero di essermi spiegato e ringrazio anticipatamente.