Visualizzazione dei risultati da 1 a 10 su 13

Hybrid View

  1. #1
    Quote Originariamente inviata da MItaly Visualizza il messaggio
    Abbiamo esattamente uno script del genere che prende un PDF di fatture esportato dal gestionale (che contiene N fatture diverse), lo converte in testo, deduce con regex dove inizia e finisce ciascuna fattura e l'indirizzo e-mail del cliente, spezza il pdf e spedisce ogni fattura al cliente giusto. È un po' una tacconata ma il gestionale che usano in ufficio fa schifo e alla fine questa era la soluzione più semplice (in effetti non ho ancora mai visto un gestionale che non facesse schifo, ma questo è un altro discorso ).

    L'estrazione del testo è fatta con pdftotext (con l'opzione -layout), il resto è in Python (con CherryPy per la parte di interfaccia web).
    potrebbe interessarmi una cosa del genere.
    ma non ho capito punto.
    spezza il pdf e spedisce ogni fattura al cliente giusto: la spedisce in che formato?

  2. #2
    Utente di HTML.it L'avatar di MySQL
    Registrato dal
    May 2015
    Messaggi
    729
    Quote Originariamente inviata da fermat Visualizza il messaggio
    potrebbe interessarmi una cosa del genere.
    ma non ho capito punto.
    spezza il pdf e spedisce ogni fattura al cliente giusto: la spedisce in che formato?
    Il formato che vuoi.
    Devi fare un parser specifico PER OGNI tipo di documento (fattura).
    Una volta convertito in testo, con -layout e/o -raw (talvolta servono entrambi!) devi caricare il testo, poi "in qualche modo" capire dove sono i documenti, e leggerne i dati.
    Niente di fantascientifico, normalmente un'oretta per ogni tipo di documento

    Se ti aspetti qualcosa di "magico" che, dato un qualsiasi PDF contenente un qualsiasi tipo di documenti, e "magicamente" ritorni non so che... mi spiace, ma ci vuole "olio di gomito"

  3. #3
    Quote Originariamente inviata da MySQL Visualizza il messaggio
    Il formato che vuoi.
    Devi fare un parser specifico PER OGNI tipo di documento (fattura).
    Una volta convertito in testo, con -layout e/o -raw (talvolta servono entrambi!) devi caricare il testo, poi "in qualche modo" capire dove sono i documenti, e leggerne i dati.
    Niente di fantascientifico, normalmente un'oretta per ogni tipo di documento

    Se ti aspetti qualcosa di "magico" che, dato un qualsiasi PDF contenente un qualsiasi tipo di documenti, e "magicamente" ritorni non so che... mi spiace, ma ci vuole "olio di gomito"
    quello nn deve mancare mai
    cmq gli do un'occhiata, grazie!!

  4. #4
    Quote Originariamente inviata da fermat Visualizza il messaggio
    potrebbe interessarmi una cosa del genere.
    ma non ho capito punto.
    spezza il pdf e spedisce ogni fattura al cliente giusto: la spedisce in che formato?
    In PDF, nel mio caso; lo step precedente di spezzare le pagine in PDF singoli è per comodità di riconoscimento di inizio/fine fattura da parte del resto del programma (che alla fine è un accrochione di regex come sempre capita per queste vicende di simil-scraping); poi le pagine vengono ri-unite (o ri-spezzo l'originale ai boundary giusti? non ricordo...) con qualche altro tool delle poppler-utils/di GhostScript/di TexLive (non ricordo mai da dove vengano, me li ritrovo sempre installati sulle mie macchine Linux per vie traverse ).

    Comunque, alla fine è come dice MySQL: non c'è nessun trucco segreto, ti ci devi semplicemente mettere lì un attimino armato di regex & co. e di un po' di file su cui fare le prove.
    Amaro C++, il gusto pieno dell'undefined behavior.

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.