Visualizzazione dei risultati da 1 a 4 su 4

Discussione: Pdf with Ocr

  1. #1
    Utente di HTML.it L'avatar di Miscio
    Registrato dal
    Oct 2003
    Messaggi
    132

    Pdf with Ocr

    Quello che dovrebbe gestire l'applicazione

    Apertura di un file pdf
    Lettura del contenuto
    presa di alcuni dati specifici ad ex. il num di protocollo che verra scritto in delle celle precise del foglio

    Componenti

    Sto ricercando un componente (se possibile opensource) o gratuito, non posso avere spese . . .
    che mi permette di leggere il contenuto di un file pdf prelevare il testo e salvarlo in un file di testo (scusate la ripetizione), ho visto alcuni esempi ma non ho ancora trovato cio che cerco

    tutte le info sono gradite

    Grazie Claudio
    Yama ... Mille Anni in Montagna

  2. #2
    Utente di HTML.it L'avatar di Miscio
    Registrato dal
    Oct 2003
    Messaggi
    132
    Nessuno sa aiutarmi?
    Yama ... Mille Anni in Montagna

  3. #3
    Utente di HTML.it L'avatar di Miscio
    Registrato dal
    Oct 2003
    Messaggi
    132
    ma davvero nessuno?
    Yama ... Mille Anni in Montagna

  4. #4
    Utente di HTML.it L'avatar di Baol74
    Registrato dal
    Jul 2002
    Messaggi
    2,004
    prova ad usare indexServer, è gratuito e installato su iis.
    Deve esserci un modo per farsi restituire il testo.

    In ogni caso se sul tuo host c'è php, è molto semplice estrarre il testo, dovrebbero esserci script in giro...questo è l'"algortimo":

    Basta cercare tutte le "matrici" che iniziano per <</Type /Page
    Si estrae la parte da stream a endstream immediatamente sucessiva e la si decomprime con gzuncompress. Si prendono tutti i valori tra parentesi (*).Quello è il testo.

    Un esempio di testo pdf decompresso:

    codice:
    <</Type /Page
    /Parent 1 0 R
    /Resources 2 0 R
    /Contents 4 0 R>>
    endobj
    4 0 obj
    <</Length 13494>>
    stream
    2 J
    0.57 w
    BT /F1 12.00 Tf ET
    q 85.04 0 0 24.67 28.35 788.87 cm /I1 Do Q
    BT /F1 6.00 Tf ET
    q 0.620 0.620 0.620 rg BT 510.90 808.74 Td (Documento generato) Tj ET Q
    q 0.620 0.620 0.620 rg BT 499.23 802.74 Td (da Gestione Impianti Gas) Tj ET Q
    q 0.620 0.620 0.620 rg BT 503.22 796.74 Td ( il 23.02.2005 alle 09:50) Tj ET Q
    q 0.620 0.620 0.620 rg BT 543.25 790.74 Td (Pagina 1) Tj ET Q
    BT /F1 12.00 Tf ET
    endstream
    Come vedi, tra parentesi all'interno di stream-endstream c'è il testo valido. Normalmente la parte di stream è compressa con un algoritmo gz.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.