un modo efficiente potrebbe essere quello di inserire i testi che ti interessano in una tabella mysql e poi fare delle ricerche fulltext.
Prima leggi una pagina alla volta e, magari con delle espressioni regolari, selezioni i testi su cui vuoi fare la ricerca.
Una volta recuperati gli inserisci nel database.
Le ricerca saranno così molto veloci, inoltre avrai la possibilità di ordinare i risultati per attinenza (score)