Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 12
  1. #1
    Utente di HTML.it
    Registrato dal
    Sep 2006
    Messaggi
    517

    [JAVA] Leggere file pdf

    Salve ragazzi , vorrei recuperare dei valori da un file pdf ed inserirli in un array in java ho provato le librerie:

    PDFTextStream (a pagamento) ma soddisfa pienamente quello che voglio
    e
    pdfbox (open source) ma vede il file come un'immagine e quindi non mi recupera niente.

    ne conoscete altre?

  2. #2
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    non conoscevo PDFBox di apache, quindi intanto ti ringrazio per la citazione.
    Allora, bando alle ciance, sono andato a scaricare la versione "app" e l'ho testata:

    codice:
    java -jar pdfbox-app-1.6.0.jar ExtractText file.pdf file.txt
    funziona a dovere con PDF contenenti testo, ovvero, PDF provenienti da file prodotti con elaboratori di testo etc.

    Ovviamente non funziona con PDF contenenti immagini che a loro volta contengono dei testi (la foto ad un cartello non viene parsata)
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  3. #3
    Utente di HTML.it
    Registrato dal
    Sep 2006
    Messaggi
    517
    di nulla. forse mi sono espresso male allora io riesco a recuperare il testo ma il problema è questo io vorrei inserire i campi di questo file pdf:

    http://www.aams.gov.it/sites/aams200...-SIGARETTE.pdf

    in un array di oggetti java , come si potrebbe fare?

  4. #4
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    temo avrai qualche problema con quel file: con PDFBox, giustamente, fa il parsing riga a riga, quindi le descrizioni multiriga vengono splittate.

    E pure facendo un copia/incolla direttamente da acrobat reader non va tanto meglio: l'unico vantaggio in questo caso è che il testo "acapo" facente parte della stessa "cella" resta tutto sulla stessa riga... il problema diventa la prima colonna, che ogni tanto manca e né pdfbox né il copia/incolla sono in grado di gestirla (non c'è un carattere speciale che segnali la mancanza del campo)... quindi anche se riuscissi a leggere il testo, scrivere un parser solido non sarà molto semplice. Non puoi vedere se esista una versione excel o CSV del file? In qualche modo il PDF è stato prodotto...
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  5. #5
    Utente di HTML.it
    Registrato dal
    Sep 2006
    Messaggi
    517
    Non penso che ci sia, comunque ora controllo, quel file è scaricabile in pdf appunto per non essere modificato

    Andrea per caso sai se c'è una libreria java in grado di convertire il file pdf in exel o xml o dbf ...?

  6. #6
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    non mi risulta... ma non so se ti aiuterebbe (il problema resta il parsing del pdf).
    Invece, prova a dare un'occhiata qui:

    http://www.tabaccheria21.net/news.htm

    qualcuno apparentemente si passa / si è già passato il tempo a sistemare i dati in un file di Excel:

    Listino - Formato Excel
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  7. #7
    Utente di HTML.it
    Registrato dal
    Sep 2006
    Messaggi
    517
    grazie andrea, è già qualcosa comunque mancano ancora i codici a barre

    Oggi sono andato agli uffici dei monopoli di stato per chiedere informazioni e mi hanno detto che non era di loro copetenza e da li mi hanno mandato al deposito fiscale , ovviamente loro non sanno niente perchè è compito dei monopoli di stato quindi mi hanno rimandato li, ho parlato con un responsabili il quale non sapeva nemmeno l'esistenza del file pdf (scandaloso), tra varia chiamate hanno deciso di mandarmi all'autoparco dei monopoli di stato e anche li non sapevano l'esistenza. Morale della favola l'italia ha seri problemi

    Se novità e vi interessa vi faccio sapere come si risolverà questa storia

  8. #8
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    ahhhhh... ma stai facendo un software per una tabaccheria?
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

  9. #9
    Utente di HTML.it
    Registrato dal
    Sep 2006
    Messaggi
    517
    si , si ma non pensavo fosse così difficile reperire informazioni dallo stato italiano

  10. #10
    Utente di HTML.it
    Registrato dal
    Aug 2002
    Messaggi
    8,013
    se continua così, fai prima a buttare dentro i dati a mano...
    <´¯)(¯`¤._)(¯`»ANDREA«´¯)(_.¤´¯)(¯`>
    "The answer to your question is: welcome to tomorrow"

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.