Su questo non ho idea purtroppo.
Questa logica mi sembra abbastanza particolare e specifica (cercare un testo ripetuto e tagliare lì) e quindi non so dire se esista già una libreria o tool apposito per questo.
Io in queste ultime settimane sto cercando di usare per conto mio la libreria Apache PDFBox che è una libreria Java relativamente di più "basso" livello (rispetto ad altre) che permette di manipolare in modo dettagliato il contenuto dei PDF.
Solo che per usarla la curva di apprendimento è abbastanza alta, dipendente da quanto si sa del formato PDF dei suoi stream interni, degli operatori e operandi negli stream, ecc... (e io sto imparando man mano che vado avanti).
Quindi non so se consigliarti questa libreria .... dipende da quanto tempo (e voglia) hai per apprenderla.