ho trovato una libreria gratuita che mi estrae il testo dal PDF, per chi dovesse servire eccola qui:
https://uglytoad.github.io/PdfPig/

Per ogni parola mi danno delle coordinate, io però avrei bisogno di avere un file TXT per poi analizzarlo, ricostruendo il layout il meglio possibile.
Come dicevo attualmente ho un file exe di soli 840KB che lancio da terminale, estrae il testo dal PDF e mi restituisce un file TXT con il layout ricostruito, e funziona alla grande, ma è del 2011, ho paura che fra un po' di tempo non funzionerà più su sistemi moderni, e poi non ho capito se è coperto da copyright oppure no e quindi vorrei rifarlo io.
Come potrei fare ?
Ho visto che nella mappa dei testi (dopo vi scrivo il link del CSV da scaricare), mi trovo X, Y, Width e Height, ma (ad esempio) la scritta "Order No : 70510650" che nel PDF si vede tutta sulla stessa riga, perchè ha quattro coordinate Y diverse ?
"Order" ha y:788.82604609375
"No" ha y:788.7161828125
":" ha y:786.9407921875
"70510650" ha y:788.74255
Ok, dovrò arrotondare per capire che sono sulla stessa riga, ma quei 788.826 a cosa corrispondono ?
Ah, dimenticavo, le coordinate Y in realtà sono dal basso verso l'alto
Qualche idea per ricostruire il layout ??
Perchè poi il problema ce l'ho anche sulla coordinata X, come faccio a capire quanti spazi devo mettere tra una scritta e l'altra ??
Esiste magari un qualcosa di spunto o di aiuto già fatto su internet ?
Grazie

Eccovi i files:
PDF: https://www.sirjo.com/invoice.pdf
TXT: https://www.sirjo.com/invoice.txt
CSV: https://www.sirjo.com/invoice.csv