
Originariamente inviata da
MItaly
Abbiamo esattamente uno script del genere che prende un PDF di fatture esportato dal gestionale (che contiene N fatture diverse), lo converte in testo, deduce con regex dove inizia e finisce ciascuna fattura e l'indirizzo e-mail del cliente, spezza il pdf e spedisce ogni fattura al cliente giusto. È un po' una tacconata ma il gestionale che usano in ufficio fa schifo e alla fine questa era la soluzione più semplice (in effetti non ho ancora mai visto un gestionale che non facesse schifo, ma questo è un altro discorso

).
L'estrazione del testo è fatta con pdftotext (con l'opzione -layout), il resto è in Python (con CherryPy per la parte di interfaccia web).