FILE PDF

**vincenzo.cr** · 14-04-2005, 15:55

Salve a tutti

Ho bisogno di verificare se una stringa e' contenuta in un file PDF ("generato" con PDFCREATOR).
Mi serve, quindi, aprire il file, verificare se la stringa e' presente, leggere <n> caratteri a seguire dalla stringa cercata e richiudere il file.

Non essendo ancora molto pratico di .NET non sono riuscito ad utilizzare quanto gia' disponibile gratuitamente. Cerco, pertanto, un sistema in ASP "classico".

Ho visto FPDF, ma a quanto ho capito consente di "creare" e manipolare un file PDF e non "solamente" aprirlo e leggerne il contenuto.

Grazie!

**Baol74** · 14-04-2005, 16:23

in asp non è possibile (o meglio, è possibile se installi un oggetto com). I pdf solitamente sono compressi in alcune parti, compreso il testo.
Per effettuare una ricerca devi prendere gli "stream" testuali, decomprimerli e cercare

**vincenzo.cr** · 14-04-2005, 16:39

Grazie!

"stream" testuali, decomprimerli e cercare ?????

Cioe?

(Scusa la mia ignoranza)

**Baol74** · 14-04-2005, 16:57

Se apri un pdf con un editor di testo, troverai spesso la sequenza

codice:

stream
.
.
endstream

tra queste due parole chiave vengono inseriti i contenuti del pdf.
I contenuti possono essere o un testo , o un'immagine.

a Te interesseranno quelli che iniziano per <</Type /Page

Questi contenuti sono compressi , solitamente con un algoritmo gz.
E quindi vedrai una cosa del genere:

codice:

stream
xœ•Œ1
€0û¼b?à™»äôÞ`'>@„4
já÷D;Ùb—…Aç<i‹Óm£_0¤¢J,¨žÞgŒXËËŸóî‹
T¢(¦ÅÕCbÉõY˜Éø¿µpüÑJÑ^^ñ%¯
endstream

Se devi effettuare una ricerca, prima devi prendere il contenuto tra stream e endstream (facile) poi nel caso sia compresso (questo accade il 99% delle volte, troverai il tag stream preceduto da <</Filter /FlateDecode )devi decomprimerlo.

Una volta decompresso avrai il testo (più o meno), una cosa del genere:

codice:

stream
2 J
0.57 w
BT /F1 12.00 Tf ET
q 85.04 0 0 38.71 28.35 774.83 cm /I1 Do Q
BT /F1 6.00 Tf ET
q 0.620 0.620 0.620 rg BT 510.90 808.74 Td (Documento generato) Tj ET Q
q 0.620 0.620 0.620 rg BT 534.58 802.74 Td (da Lorenzo) Tj ET Q
q 0.620 0.620 0.620 rg BT 504.89 796.74 Td (il 23.03.2005 alle 09:28) Tj ET Q
q 0.620 0.620 0.620 rg BT 543.25 790.74 Td (Pagina 1) Tj ET Q
BT /F1 12.00 Tf ET
0.000 G
endstream

Di questa parte, devi prendere solo il testo tra parentesi.

Se posso darti un cosiglio, prova a cercare degli script php.

**vincenzo.cr** · 16-04-2005, 01:05

Gentilisimmo!

Provero' a documentarmi meglio e spero di trovare la soluzione senza essere costretto ad utilizzare "component" non gratuiti. A pagamento ne ho trovati parecchi.

In ogni caso accetto suggerimenti o "dritte" di qualuque natura e spero di poter ricambiare, presto e in qualche modo, la cortesia.

Grazie!!!

Discussione: FILE PDF

Strumenti discussione

Ricerca discussione

Visualizza

FILE PDF

Permessi di invio