estrapolazione ed analisi del contenuto di un pdf

**cemsal** · 24-02-2006, 16:40

Mi rendo conto che ci sono vari post con argomenti simili, però data la difficoltà del tema (almeno per me...) vorrei fare domande specifiche sulla mia problematica.

Veniamo alla richiesta: come da titolo post, estrarre contenuto di un pdf, e se possibile analizzarlo in base al carattere o formattazione utilizzata, per poi suddividere tale contenuto col fine di popolare un db.

Detto spiccio, ho questi pdf in cui ho titoli, sottotitoli, paragrafi di testo... dovrei prendere questi e memorizzarli in campi diversi di un db.

Come fare?!

Già ho letto che solo via PHP sembra complesso se non impossibile, e quindi mi domandavo in che modo poter eventualmente installare su server un programma che faccia questo e però che si relazioni alla mia pagina php in modo che la stessa visualizzi i dati prelevati dal pdf e popoli il db.
E' una soluzione possibile? Esiste un programma che faccia questo?!
In che sistemi (Linux, Win) può essere installato.

HELP!!!

**cemsal** · 24-02-2006, 17:18

UPPETTINO=piccolo UP

**cemsal** · 24-02-2006, 18:39

UPPETE!

**elysium** · 25-02-2006, 12:19

Mi viene in mente

http://www.pdflib.com/products/tet/

ma esattamente come funzione non lo so.

So anche che c'è un motore di ricerca in php (phpdig, cerca su google) che con determinati plug in (che vengono elencati) può estrarre i dati da un pdf per indicizzarli.
Potresti 'intervenire' nella fase di estrazione e capire come funziona per poi usarlo a tuo piacimento.
Marco

**cemsal** · 25-02-2006, 12:37

Ciao, grazie per la risposta, in effetti ad una prima occhiate sembra proprio una soluzione attinente a ciò che cercavo...

Circa il mdr faccio subito una ricerca in Google...

CIAO

Discussione: estrapolazione ed analisi del contenuto di un pdf

Strumenti discussione

Ricerca discussione

Visualizza

estrapolazione ed analisi del contenuto di un pdf

Permessi di invio