Ciao a tutti. Sono finalmente riuscito a estrarre il testo dai PDF. Ora però ho un piccolo problema. Se il PDF è pieno di immagini e formattazioni strane (ad esempio quando viene creato da una presentazione Power Point) la stringa risultante è piena di caratteri strani (suppongo codice ascii, ma non ne sono sicuro). Qualcuno è a conoscienza di qualche metodo o libreria per eliminare quei caratteri?
Grazie

. Ora però ho un piccolo problema. Se il PDF è pieno di immagini e formattazioni strane (ad esempio quando viene creato da una presentazione Power Point) la stringa risultante è piena di caratteri strani (suppongo codice ascii, ma non ne sono sicuro). Qualcuno è a conoscienza di qualche metodo o libreria per eliminare quei caratteri?
Rispondi quotando