Quote Originariamente inviata da Jordan82 Visualizza il messaggio
qualcuno sa dirmi una libreria che permette la trasformazione di un pdf (contenente delle pagine stampate scansionate) in un pdf ricercabile (un semplice ocr).
Su questo non ho idea purtroppo.

Quote Originariamente inviata da Jordan82 Visualizza il messaggio
Inoltre dovrei cercare un testo ripetuto in un pdf e ogni volta che trovo questo testo dovrei tagliare il pdf, c'è qualche libreria che può aiutarmi?
Questa logica mi sembra abbastanza particolare e specifica (cercare un testo ripetuto e tagliare lì) e quindi non so dire se esista già una libreria o tool apposito per questo.
Io in queste ultime settimane sto cercando di usare per conto mio la libreria Apache PDFBox che è una libreria Java relativamente di più "basso" livello (rispetto ad altre) che permette di manipolare in modo dettagliato il contenuto dei PDF.
Solo che per usarla la curva di apprendimento è abbastanza alta, dipendente da quanto si sa del formato PDF dei suoi stream interni, degli operatori e operandi negli stream, ecc... (e io sto imparando man mano che vado avanti ).
Quindi non so se consigliarti questa libreria .... dipende da quanto tempo (e voglia) hai per apprenderla.