Non sono espertissimo, ma mi pare che i pdf abbiano una strutta codificata e che contengano dei “tag” tramite i quali si possono individuare posizioni nel documento che contengono del testo
Potresti provare a cercare qualche parser o un convertitore che tiri fuori la struttura in modo che sia leggibile