Visualizzazione dei risultati da 1 a 9 su 9

Discussione: Parser pdf

  1. #1

    Parser pdf

    Ciao!

    Qualcuno di voi si è mai trovato di fronte all'esigenza di dover "parsare" un file pdf?
    Nel senso: ho un pdf con diversi testi disposti in svariati modi (colonne laterali, articolo centrale..ecc..), ad esempio la pagina di un quotidiano, e devo ricavare un file testuale con gli articoli.
    Qualcuno ha mai avuto questa esigenza?
    Se si, che soluzione avete adottato?

    Grazie!

    Ciao!
    Non piangere per ciò che hai sbagliato ma per quello che non hai fatto per paura di sbagliare.

  2. #2
    Ma il testo non te lo fa selezionare per la copia negli appunti?Se è così penso che basti fare seleziona tutto da menu e incollare in un editor di solo testo.
    Il centro dell'attenzione non è sempre un buon posto in cui trovarsi

    Mai discutere con uno stupido, la gente potrebbe non capire la differenza. (O. W.)

  3. #3
    Certo. Così sarebbe molto facile.
    Ma i pdf sono qualche migliaio al giorno, quindi dovrei automatizzare il processo.
    Non piangere per ciò che hai sbagliato ma per quello che non hai fatto per paura di sbagliare.

  4. #4
    Capisco!Se mi capita qualcosa sottomano te lo comunico.
    Il centro dell'attenzione non è sempre un buon posto in cui trovarsi

    Mai discutere con uno stupido, la gente potrebbe non capire la differenza. (O. W.)

  5. #5
    Ovviamente per automatizzare il fatto che l'applicazione si prenda tutti i pdf che man mano vengono messi in una data cartella ci penso io con schedulazioni, vbs o quant'altro.
    Tanto per cominciare, mi serve l'applicazione che si occupa di estrarre il txt dal pdf in modo abbastanza ordinato.
    Che sia java, vbs, eseguibile o altro può andare bene.

    Ciao!
    Non piangere per ciò che hai sbagliato ma per quello che non hai fatto per paura di sbagliare.

  6. #6
    Dai un'occhiata a questa pagina http://www.giulianoartico.it/soft/util/pdf.htm ,secondo me c'è qualcosa che può fare al caso tuo.Fammi sapere.Ciao
    Il centro dell'attenzione non è sempre un buon posto in cui trovarsi

    Mai discutere con uno stupido, la gente potrebbe non capire la differenza. (O. W.)

  7. #7
    Utente di HTML.it L'avatar di netarrow
    Registrato dal
    Apr 2004
    Messaggi
    1,425
    http://www.andykhan.com/orinoco/index.html
    Qui ci sono delle api Java per gestire in genere files pdf.

    Imparare è un'esperienza, tutto il resto è solo informazione. (Albert Einstein)

  8. #8
    Ciao!
    In questo sito (http://www.giulianoartico.it/soft/util/pdf.htm ) c'ero già finito ed ho anche provato il programmino.
    Il problema è: cosa succcede quando devo convertire ad esempio un pdf di un quotidiano con due articoli laterali ed uno centrale?
    Succede questo: nel txt leggo la prima riga dell'articolo della colonna sinistra, una serie di nbsp, la prima riga dell'articolo centrale, nuova serie di nbsp ed infine la prima riga dell'articolo di destra. Tutto questo mi fa ottenere un effetto visivo simile all'aspetto del pdf, ma immagina se io dovessi dare in pasto il txt ad uno strumento che mi immagazzina gli articoli del quotidiano: avrei dei record illeggibili.
    Il mio problema è: come fare a suddividere gli articoli in modo più coerente? Per intenderci: l'ideale sarebbe avere un file per ogni articolo, ma mi sa che sto pretendendo troppo...

    Ciaps!
    Non piangere per ciò che hai sbagliato ma per quello che non hai fatto per paura di sbagliare.

  9. #9
    Ho capito!La mia idea sarebbe quella di usare il programma che ti ho indicato per un'estrazione "grezza" del testo dai pdf e poi scrivere un programmino C che prende ognuno dei file prodotti ed esegue delle elaborazioni successive,ad esempio mettere ogni articolo in un file diverso basandosi sul carattere nbsp (che mi hai indicato e non so quale sia) per capire quando si sta passando dalla riga di un'articolo a quella di un altro.
    Prima di tutto ti direi di provare l'opzione del programma che preserva il layout originale se non l'hai già fatto.
    Un'altra cosa:se ho un pò di tempo ho intenzione di aiutarti provando a scrivere io il programmino che fa l'elaborazione successiva,però ho bisogno di capire almeno da dove devo partire e dove devo arrivare.Mi spiego meglio:ho bisogno di un esempio di pdf con articoli in multicolonna (non ne ho anche uno) e di uno (o più)files di testo che costituiscano il tuo ideale di risultato finale per quell'articolo.Le soluzioni sono due mi fai degli screenshoot e me li alleghi quì ,oppure con un messaggio privato ti do un indirizzo mail e mi mandi li il tutto.Meglio la seconda opzione così posso fare prove dirette...Fammi sapere
    Il centro dell'attenzione non è sempre un buon posto in cui trovarsi

    Mai discutere con uno stupido, la gente potrebbe non capire la differenza. (O. W.)

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2024 vBulletin Solutions, Inc. All rights reserved.