Visualizzazione dei risultati da 1 a 5 su 5
  1. #1

    estrapolazione ed analisi del contenuto di un pdf

    Mi rendo conto che ci sono vari post con argomenti simili, però data la difficoltà del tema (almeno per me...) vorrei fare domande specifiche sulla mia problematica.

    Veniamo alla richiesta: come da titolo post, estrarre contenuto di un pdf, e se possibile analizzarlo in base al carattere o formattazione utilizzata, per poi suddividere tale contenuto col fine di popolare un db.

    Detto spiccio, ho questi pdf in cui ho titoli, sottotitoli, paragrafi di testo... dovrei prendere questi e memorizzarli in campi diversi di un db.

    Come fare?!

    Già ho letto che solo via PHP sembra complesso se non impossibile, e quindi mi domandavo in che modo poter eventualmente installare su server un programma che faccia questo e però che si relazioni alla mia pagina php in modo che la stessa visualizzi i dati prelevati dal pdf e popoli il db.
    E' una soluzione possibile? Esiste un programma che faccia questo?!
    In che sistemi (Linux, Win) può essere installato.

    HELP!!!

  2. #2
    UPPETTINO=piccolo UP

  3. #3

  4. #4
    Mi viene in mente

    http://www.pdflib.com/products/tet/

    ma esattamente come funzione non lo so.

    So anche che c'è un motore di ricerca in php (phpdig, cerca su google) che con determinati plug in (che vengono elencati) può estrarre i dati da un pdf per indicizzarli.
    Potresti 'intervenire' nella fase di estrazione e capire come funziona per poi usarlo a tuo piacimento.
    Marco
    Luna dove sei, Sole dove vai.

    ---

  5. #5
    Ciao, grazie per la risposta, in effetti ad una prima occhiate sembra proprio una soluzione attinente a ciò che cercavo...

    Circa il mdr faccio subito una ricerca in Google...

    CIAO

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.