Come posso estrarre il testo da un file .pdf???
Come posso estrarre il testo da un file .pdf???
sei su so windows o linux? su linux ci sono degli ottimi tool, ma dubito che sul server sono installatiOriginariamente inviato da carmineabomb
Come posso estrarre il testo da un file .pdf???
se vuoi, con poco lavoro, puoi scriverti un codice che ti disassembli i pdf estraendoti solo il testo
se apri un file pdf con un editor di testo tipo context potrai leggere il contenuto e potrai vedere che non sono cosi complessi
se scarichi dal sito dell'adobe le referenze puoi farti il parser e costruire tutto quello che ti serve
The fastest Redis alternative ... cachegrand! https://github.com/danielealbano/cachegrand
sono su windows xp service pack 2 il server lo tengo in locale e quindi posso installare quello ke voglio!c'è qualke toll per windows???
ci dovrebbe essere la versione winzoz di questi tool
oggi pome ti dico come si chiamano che devo fuggire a lavoro ^^
cmq credo sia pdftohtml e fa parte di un pacchetto, cmq oggi guardo
The fastest Redis alternative ... cachegrand! https://github.com/danielealbano/cachegrand
:master: :master:Originariamente inviato da daniele_dll
se apri un file pdf con un editor di testo tipo context potrai leggere il contenuto e potrai vedere che non sono cosi complessi![]()
non ti confondi con gli rtf?
i pdf se li apro vedo un casino incredibile![]()
Anke io vedo un casino secondo me ti sei confuso con gli rtf ke sono anke molto + leggeri!!!Cmq grazie oggi pomeriggio farò una ricerca del tool oea devo scappare!!!Originariamente inviato da bubu77
:master: :master:
non ti confondi con gli rtf?
i pdf se li apro vedo un casino incredibile![]()
:rollo: :rollo:
il file pdf, se non sono compressi, sono un insieme di comandi
la compressione, se non erro, è fatta con le GZIP, e il flag che specifica la compressione sta negli header
aprite qualche pdf semplice con context cosi vedete![]()
The fastest Redis alternative ... cachegrand! https://github.com/danielealbano/cachegrand
a me servirebbe un tools o uno script ke trasforma delle tabelle di file .pdf in tabelle html, in modo ke ci posso lavorare con + semplicità
allora uno si chiama
pdftotext
ed è capace anche su supportare un layout (basta che poi lo visualizzi usando il tag pre) mentre per trasformarlo proprio in html hai bisogno di pdf2ps e ps2html
The fastest Redis alternative ... cachegrand! https://github.com/danielealbano/cachegrand
ok grazie mo devo andare a scuola quando torno farò una ricerca...
grazie ancora![]()