Visualizzazione dei risultati da 1 a 7 su 7
  1. #1
    Utente di HTML.it
    Registrato dal
    Mar 2014
    residenza
    Vicenza
    Messaggi
    318

    [VB.NET] Estrazione di testo dai PDF con librerie gratuite

    Ciao a tutti,
    sapete se esiste del codice VB.NET oppure una DLL per estrarre il testo dai file PDF ?
    Se possibile qualcosa di free perchè è solo per uso personale.
    Io ho provato a cercare su internet ma non ho trovato nulla che mi potesse andar bene

    Grazie

  2. #2
    Utente di HTML.it L'avatar di abellos
    Registrato dal
    Feb 2002
    Messaggi
    431
    Si esiste, cerca la libreria itextsharp, puoi estrarre il testo ma solo se e' testo non un immagine.
    Da un grande potere derivano grandi responsabilità

  3. #3
    Utente di HTML.it
    Registrato dal
    Mar 2014
    residenza
    Vicenza
    Messaggi
    318
    ma è free ??
    mi dice che iText5 non si usa più e devo passare a iText8 e alla pagina https://itextpdf.com/get-started mi dice "free trial"

  4. #4
    Utente di HTML.it
    Registrato dal
    Mar 2014
    residenza
    Vicenza
    Messaggi
    318
    ho trovato una libreria gratuita che mi estrae il testo dal PDF, per chi dovesse servire eccola qui:
    https://uglytoad.github.io/PdfPig/

    Per ogni parola mi danno delle coordinate, io però avrei bisogno di avere un file TXT per poi analizzarlo, ricostruendo il layout il meglio possibile.
    Come dicevo attualmente ho un file exe di soli 840KB che lancio da terminale, estrae il testo dal PDF e mi restituisce un file TXT con il layout ricostruito, e funziona alla grande, ma è del 2011, ho paura che fra un po' di tempo non funzionerà più su sistemi moderni, e poi non ho capito se è coperto da copyright oppure no e quindi vorrei rifarlo io.
    Come potrei fare ?
    Ho visto che nella mappa dei testi (dopo vi scrivo il link del CSV da scaricare), mi trovo X, Y, Width e Height, ma (ad esempio) la scritta "Order No : 70510650" che nel PDF si vede tutta sulla stessa riga, perchè ha quattro coordinate Y diverse ?
    "Order" ha y:788.82604609375
    "No" ha y:788.7161828125
    ":" ha y:786.9407921875
    "70510650" ha y:788.74255
    Ok, dovrò arrotondare per capire che sono sulla stessa riga, ma quei 788.826 a cosa corrispondono ?
    Ah, dimenticavo, le coordinate Y in realtà sono dal basso verso l'alto
    Qualche idea per ricostruire il layout ??
    Perchè poi il problema ce l'ho anche sulla coordinata X, come faccio a capire quanti spazi devo mettere tra una scritta e l'altra ??
    Esiste magari un qualcosa di spunto o di aiuto già fatto su internet ?
    Grazie

    Eccovi i files:
    PDF: https://www.sirjo.com/invoice.pdf
    TXT: https://www.sirjo.com/invoice.txt
    CSV: https://www.sirjo.com/invoice.csv

  5. #5
    Utente di HTML.it
    Registrato dal
    Mar 2014
    residenza
    Vicenza
    Messaggi
    318
    La libreria che ho citato ha anche delle funzioni di "Layout Analysis", me le sto studiando

  6. #6
    Utente di HTML.it L'avatar di abellos
    Registrato dal
    Feb 2002
    Messaggi
    431
    Ciao Sir,
    scusami ma non mi e' arrivata la notifica dei tuoi messaggi, io utilizzo la versione 5 di itextsharp mi pare ed e' gratuita.
    Grazie per aver indicato la libreria che usi, non la conoscevo.
    I 788 sono punti e non pollici o millimetri
    Da un grande potere derivano grandi responsabilità

  7. #7
    Utente di HTML.it
    Registrato dal
    Mar 2014
    residenza
    Vicenza
    Messaggi
    318
    Ciao abellos, grazie per la spiegazione.
    Ho scoperto come funzionano le routine di "Layout Analysis" della libreria sopracitata e sono riuscito alla grande a fare ciò che mi serviva.
    Le funzioni non ricostruiscono il tutto in un file TXT come l'esempio che avevo fatto, ma raggruppano il testo suddividendolo per logica e mi ritrovo comunque dei dati ben utilizzabili.
    grazie mille comunque di tutto

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.