Mi viene in mente
http://www.pdflib.com/products/tet/
ma esattamente come funzione non lo so.
So anche che c'è un motore di ricerca in php (phpdig, cerca su google) che con determinati plug in (che vengono elencati) può estrarre i dati da un pdf per indicizzarli.
Potresti 'intervenire' nella fase di estrazione e capire come funziona per poi usarlo a tuo piacimento.
Marco