Ciao a tutti, sto cercando di creare un semplice script perl che isoli il testo "utile" di una pagina HTML. Per farlo ho provato a rimuovere i tag html da un file di testo, attraverso le espressioni regolari.
Siccome devo isolare il contenuto, devo eliminare completamente tag come <script> e tutto quello che contengono, quindi incontro un problema di multilinea.
Il primo tentativo che ho fatto è stato s/<.*?>//g;
ma il contenuto del tag script rimane.
Ovviamente s/<script.*?/script>//; nella maggior parte dei casi non funziona perché è multilinea. Come posso fare?