funziona con i pdf contenenti solo testo. con un pdf ke contiene un'immaginetta di intestazione e poi il testo mi da una pagina html vuota. bianca. nemmeno -1.
[OT]
c'è una guida da qualche parte che spiega com'è strutturato internamente il pdf e come fare per gestire le varie tipologie di contenuti?
Esempio: il mio pdf contiene un'immaginetta e poi il testo. io me ne frego dell'immaginetta, la ignoro e estraggo solo il testo.
Inoltre ho notato che lo script restituisce solo testo nudo e crudo. Numeri e lettere. anche solo lettere accentate, accenti, apici etc vengono riportati col valore ascii (suppongo. es: è = 350). Il problema è che non è che hanno un simbolo davanti, quindi non posso ritrattare il testo dicendo: "ok, dove c'è #350 ci metto una è".
Idee?
Grazie pax
ciauz,
Ale


Rispondi quotando