Se apri un pdf con un editor di testo, troverai spesso la sequenza
codice:
stream
.
.
endstream
tra queste due parole chiave vengono inseriti i contenuti del pdf.
I contenuti possono essere o un testo , o un'immagine.
a Te interesseranno quelli che iniziano per <</Type /Page
Questi contenuti sono compressi , solitamente con un algoritmo gz.
E quindi vedrai una cosa del genere:
codice:
stream
xœ•Œ1
€0û¼b?à™»äôÞ`'>@„4
já÷D;Ùb—…Aç<i‹Óm£_0¤¢J,¨žÞgŒXËËŸóî‹
T¢(¦ÅÕCbÉõY˜Éø¿µpüÑJÑ^^ñ%¯
endstream
Se devi effettuare una ricerca, prima devi prendere il contenuto tra stream e endstream (facile) poi nel caso sia compresso (questo accade il 99% delle volte, troverai il tag stream preceduto da <</Filter /FlateDecode )devi decomprimerlo.
Una volta decompresso avrai il testo (più o meno), una cosa del genere:
codice:
stream
2 J
0.57 w
BT /F1 12.00 Tf ET
q 85.04 0 0 38.71 28.35 774.83 cm /I1 Do Q
BT /F1 6.00 Tf ET
q 0.620 0.620 0.620 rg BT 510.90 808.74 Td (Documento generato) Tj ET Q
q 0.620 0.620 0.620 rg BT 534.58 802.74 Td (da Lorenzo) Tj ET Q
q 0.620 0.620 0.620 rg BT 504.89 796.74 Td (il 23.03.2005 alle 09:28) Tj ET Q
q 0.620 0.620 0.620 rg BT 543.25 790.74 Td (Pagina 1) Tj ET Q
BT /F1 12.00 Tf ET
0.000 G
endstream
Di questa parte, devi prendere solo il testo tra parentesi.
Se posso darti un cosiglio, prova a cercare degli script php.