Ciao
avete uno script (vbs andrebbe benissmo) per convertire un file pdf in csv o xls?
grazie
Ciao
avete uno script (vbs andrebbe benissmo) per convertire un file pdf in csv o xls?
grazie
Non basta uno script ... e comunque non si fanno richieste di codice pronto all'uso sul forum...
No MP tecnici (non rispondo nemmeno!), usa il forum.
La risposta davvero breve è che non riesci ovviamente con uno script.
Il punto chiave è se parliamo di un PDF immagine o un PDF testo.
Nel primo caso ti serve un OCR (ce n'è uno gratuito ma non è un granchè), oppure uno a pagamento (ce ne sono un paio validi).
Nell'ipotesi più semplice di PDF testo puoi usare invece il programmello eseguibile pdftotext (non so se è gratuito)
Ciao
si è un pdf testuale...tipo una fattura...
Non volevo avere uno script già fatto..volevo solo sapere se qualcuno ha già fatto qualche cosa di simile...
Abbiamo esattamente uno script del genere che prende un PDF di fatture esportato dal gestionale (che contiene N fatture diverse), lo converte in testo, deduce con regex dove inizia e finisce ciascuna fattura e l'indirizzo e-mail del cliente, spezza il pdf e spedisce ogni fattura al cliente giusto. È un po' una tacconata ma il gestionale che usano in ufficio fa schifo e alla fine questa era la soluzione più semplice (in effetti non ho ancora mai visto un gestionale che non facesse schifo, ma questo è un altro discorso ).
L'estrazione del testo è fatta con pdftotext (con l'opzione -layout), il resto è in Python (con CherryPy per la parte di interfaccia web).
Amaro C++, il gusto pieno dell'undefined behavior.
Anche noi ne abbiamo uno, in vbs con pdftotext ...
No MP tecnici (non rispondo nemmeno!), usa il forum.
Ma in giro si trovano api a cui potersi appoggiare per un eventuale webservice che faccia la conversione da PDF ad altri formati?
Stavo pensando ad un modo su come risparmiare un po' di soldi senza sviluppare ex-novo un nuovo script...
Il formato che vuoi.
Devi fare un parser specifico PER OGNI tipo di documento (fattura).
Una volta convertito in testo, con -layout e/o -raw (talvolta servono entrambi!) devi caricare il testo, poi "in qualche modo" capire dove sono i documenti, e leggerne i dati.
Niente di fantascientifico, normalmente un'oretta per ogni tipo di documento
Se ti aspetti qualcosa di "magico" che, dato un qualsiasi PDF contenente un qualsiasi tipo di documenti, e "magicamente" ritorni non so che... mi spiace, ma ci vuole "olio di gomito"