Visualizzazione dei risultati da 1 a 4 su 4
  1. #1

    Convertire pdf in pdf ricercabile

    Buongiorno,
    qualcuno sa dirmi una libreria che permette la trasformazione di un pdf (contenente delle pagine stampate scansionate) in un pdf ricercabile (un semplice ocr).

    Inoltre dovrei cercare un testo ripetuto in un pdf e ogni volta che trovo questo testo dovrei tagliare il pdf, c'è qualche libreria che può aiutarmi?


    Grazie

  2. #2
    Utente di HTML.it L'avatar di andbin
    Registrato dal
    Jan 2006
    residenza
    Italy
    Messaggi
    18,284
    Quote Originariamente inviata da Jordan82 Visualizza il messaggio
    qualcuno sa dirmi una libreria che permette la trasformazione di un pdf (contenente delle pagine stampate scansionate) in un pdf ricercabile (un semplice ocr).
    Su questo non ho idea purtroppo.

    Quote Originariamente inviata da Jordan82 Visualizza il messaggio
    Inoltre dovrei cercare un testo ripetuto in un pdf e ogni volta che trovo questo testo dovrei tagliare il pdf, c'è qualche libreria che può aiutarmi?
    Questa logica mi sembra abbastanza particolare e specifica (cercare un testo ripetuto e tagliare lì) e quindi non so dire se esista già una libreria o tool apposito per questo.
    Io in queste ultime settimane sto cercando di usare per conto mio la libreria Apache PDFBox che è una libreria Java relativamente di più "basso" livello (rispetto ad altre) che permette di manipolare in modo dettagliato il contenuto dei PDF.
    Solo che per usarla la curva di apprendimento è abbastanza alta, dipendente da quanto si sa del formato PDF dei suoi stream interni, degli operatori e operandi negli stream, ecc... (e io sto imparando man mano che vado avanti ).
    Quindi non so se consigliarti questa libreria .... dipende da quanto tempo (e voglia) hai per apprenderla.
    Andrea, andbin.devSenior Java developerSCJP 5 (91%) • SCWCD 5 (94%)
    java.util.function Interfaces Cheat SheetJava Versions Cheat Sheet

  3. #3
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    All'epoca mi imbattei in tesseract, che è wrappato in java nel progetto Tess4J. Ho abbandonato l'esplorazione del prodotto causa lavoro e mancanza di tempo. Altrimenti, non potresti utilizzare un altro software per convertire il PDF prima di darlo in pasto al tuo applicativo Java? Adobe Acrobat (non acrobat reader) ha tra i suoi strumenti un motore OCR di tutto rispetto, e dovrebbe esserci anche qualcosa freeware qualche sito riporta (PDF-XChange)
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  4. #4
    Grazie a tutti per la celere risposta.
    Ad un software esterno ci avevo già pensato il problema è che io dopo aver convertito devo aggiornare un database e per farlo devo avere la risposta della conversione (se è andata a buon fine o meno).

    Sapete se il motore ocr di oracle può essere chiamato da riga di comando?

    Per quanto riguarda il taglio, avevo visto pdfBox, il problema è che non so come poter effettuare la ricerca e poi eventualmente il taglio.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.