Sto cercando di realizzare un piccolo programma che analizza un codice html e ne "estrae" i tag e le stringhe di testo. Per adesso ho scritto questo codice:
codice:
String codeHtml = "<html> <body>
Ciao Mondo </p> </body> </html>";
Pattern pat = Pattern.compile("(</?\\w+\\>) | /*codice mancante*/");
Matcher mat = pat.matcher(codeHtml);
while(mat.find())
System.out.println(mat.group());
codice:
Output:
<html>
<body>
</p>
</body>
Con questo codice riesco ad "estrarre" solo i tag mentre il mio intento è quello di catturare anche le stringhe, nel mio esempio "Ciao Mondo". Come regular expression per definire ogni tipo di stringa avevo pensato a qualcosa del genere:
Il problema che in questo modo mi viene catturato anche il carattere <, mentre io vorrei solo indicare il fatto che la stringa si conclude con quel carattere.
Spero di essermi spiegato e ringrazio anticipatamente.