La ricerca la devi fare solo nel contenuto dei tag, oppure anche in script e attriibuti dei tag?

Per esempio, il tuo parser deve riconoscere solo queste

codice:

Questo è un array</p>
Oppure anche cose del genere
codice:
<script language="javascript">

var nome_var;

...
</script>
<body>
  

Questo è un array</p>
  <p class="arrow">Altro testo</p>
Nel secondo caso il discorso è pià semplice perché non ti serve un parser del contenuto dei tag, ma ti basta un'espressioen regolare opportuna sull'intero codice HTML.