convertire .pdf in xls o csv

**elly00** · 10-06-2015, 16:56

Ciao

avete uno script (vbs andrebbe benissmo) per convertire un file pdf in csv o xls?

grazie

**oregon** · 10-06-2015, 19:26

Non basta uno script ... e comunque non si fanno richieste di codice pronto all'uso sul forum...

**MySQL** · 10-06-2015, 20:02

La risposta davvero breve è che non riesci ovviamente con uno script.
Il punto chiave è se parliamo di un PDF immagine o un PDF testo.
Nel primo caso ti serve un OCR (ce n'è uno gratuito ma non è un granchè), oppure uno a pagamento (ce ne sono un paio validi).
Nell'ipotesi più semplice di PDF testo puoi usare invece il programmello eseguibile pdftotext (non so se è gratuito)

**elly00** · 11-06-2015, 08:47

Ciao
si è un pdf testuale...tipo una fattura...
Non volevo avere uno script già fatto..volevo solo sapere se qualcuno ha già fatto qualche cosa di simile...

**MItaly** · 11-06-2015, 09:37

Originariamente inviata da elly00

Non volevo avere uno script già fatto..volevo solo sapere se qualcuno ha già fatto qualche cosa di simile...

Abbiamo esattamente uno script del genere che prende un PDF di fatture esportato dal gestionale (che contiene N fatture diverse), lo converte in testo, deduce con regex dove inizia e finisce ciascuna fattura e l'indirizzo e-mail del cliente, spezza il pdf e spedisce ogni fattura al cliente giusto. È un po' una tacconata ma il gestionale che usano in ufficio fa schifo e alla fine questa era la soluzione più semplice (in effetti non ho ancora mai visto un gestionale che non facesse schifo, ma questo è un altro discorso

).

L'estrazione del testo è fatta con pdftotext (con l'opzione -layout), il resto è in Python (con CherryPy per la parte di interfaccia web).

**oregon** · 11-06-2015, 11:00

Anche noi ne abbiamo uno, in vbs con pdftotext ...

**CBF2k15** · 14-06-2015, 17:37

Ma in giro si trovano api a cui potersi appoggiare per un eventuale webservice che faccia la conversione da PDF ad altri formati?
Stavo pensando ad un modo su come risparmiare un po' di soldi senza sviluppare ex-novo un nuovo script...

**MySQL** · 14-06-2015, 18:04

Originariamente inviata da CBF2k15

Ma in giro si trovano api a cui potersi appoggiare per un eventuale webservice che faccia la conversione da PDF ad altri formati?
Stavo pensando ad un modo su come risparmiare un po' di soldi senza sviluppare ex-novo un nuovo script...

pdftotext.
Risparmio effettuato.

**fermat** · 14-06-2015, 18:42

Originariamente inviata da MItaly

Abbiamo esattamente uno script del genere che prende un PDF di fatture esportato dal gestionale (che contiene N fatture diverse), lo converte in testo, deduce con regex dove inizia e finisce ciascuna fattura e l'indirizzo e-mail del cliente, spezza il pdf e spedisce ogni fattura al cliente giusto. È un po' una tacconata ma il gestionale che usano in ufficio fa schifo e alla fine questa era la soluzione più semplice (in effetti non ho ancora mai visto un gestionale che non facesse schifo, ma questo è un altro discorso

).

L'estrazione del testo è fatta con pdftotext (con l'opzione -layout), il resto è in Python (con CherryPy per la parte di interfaccia web).

potrebbe interessarmi una cosa del genere.
ma non ho capito punto.
spezza il pdf e spedisce ogni fattura al cliente giusto: la spedisce in che formato?

**MySQL** · 14-06-2015, 18:47

Originariamente inviata da fermat

potrebbe interessarmi una cosa del genere.
ma non ho capito punto.
spezza il pdf e spedisce ogni fattura al cliente giusto: la spedisce in che formato?

Il formato che vuoi.
Devi fare un parser specifico PER OGNI tipo di documento (fattura).
Una volta convertito in testo, con -layout e/o -raw (talvolta servono entrambi!) devi caricare il testo, poi "in qualche modo" capire dove sono i documenti, e leggerne i dati.
Niente di fantascientifico, normalmente un'oretta per ogni tipo di documento

Se ti aspetti qualcosa di "magico" che, dato un qualsiasi PDF contenente un qualsiasi tipo di documenti, e "magicamente" ritorni non so che... mi spiace, ma ci vuole "olio di gomito"

Discussione: convertire .pdf in xls o csv

Strumenti discussione

Ricerca discussione

Visualizza

convertire .pdf in xls o csv

Permessi di invio