Ciao,
è solo un'idea:

se le pagine che vai a leggere sono XHTML,
puoi trattarle come fossero file XML.

PHP ha diverse librerie per XML.

Ciao