Visualizzazione dei risultati da 1 a 9 su 9
  1. #1

    JAVA leggere file word e pdf

    ciao a tutti.
    avrei bisogno di poter leggere file word e pdf in modo da indicizzarne il contenuto, ma non ho trovato nessuna classe/API che faccia al caso mio.

    tutto ciò che ho trovato mi permette solo di lanciare il file con il proprio reader ma non di leggerne il contenuto.

    qualche consiglio?
    grazie

  2. #2

    Re: JAVA leggere file word e pdf

    Originariamente inviato da ranza!!!123
    ciao a tutti.
    avrei bisogno di poter leggere file word e pdf in modo da indicizzarne il contenuto, ma non ho trovato nessuna classe/API che faccia al caso mio.

    tutto ciò che ho trovato mi permette solo di lanciare il file con il proprio reader ma non di leggerne il contenuto.

    qualche consiglio?
    grazie
    Per pdf cè la libreria itext che permette di fare quasi tutto con i pdf.

    Mentre per word puoi usare apache poi qui

  3. #3
    Utente di HTML.it
    Registrato dal
    Jun 2009
    Messaggi
    347
    cosa intendi per indicizzare?
    forse ti può tornare utile lucene (sub-project di Apache) che si occupa di fare il parse di documenti word e pdf creando successivamente un indici.
    ciao

  4. #4
    Utente di HTML.it
    Registrato dal
    Apr 2007
    Messaggi
    143
    Originariamente inviato da newhook
    cosa intendi per indicizzare?
    forse ti può tornare utile lucene (sub-project di Apache) che si occupa di fare il parse di documenti word e pdf creando successivamente un indici.
    ciao
    Lucene si preoccupa da solo (in automatico) di indicizzare pdf e word? Sei sicuro?

  5. #5
    Utente di HTML.it
    Registrato dal
    Jun 2009
    Messaggi
    347
    si, e se vedi tika(sottoprogetto di lucene) ti fa il parse di molti altri tipi di file (mp3, zip ecc) indicizzando
    http://lucene.apache.org/java/docs/

    ciauz!

  6. #6
    Utente di HTML.it
    Registrato dal
    Apr 2007
    Messaggi
    143
    Scusa eh, e chiedo scusa anche a chi aperto il post per lo spazio che gli sto rubando, ma credo che possa servire anche a lui: siccome ho perso un sacco di tempo per indicizzare file di office e pdf ... sapresti indicarmi un link con qualche tutorial di questa nuova caratteristica di lucene? E' molto che lo fa? Ho visto che è uscita una nuova release pochi giorni fa, l'hanno introdotta in quella? Grazie super mille.

  7. #7
    Utente di HTML.it
    Registrato dal
    Jun 2009
    Messaggi
    347
    quale nuova caratteristica? intendi tika? è un sottoprogetto...in rete si torva poco, solo sul sito di apache. ==> http://lucene.apache.org/tika/

    Per lucene si trova roba in giro, esempi tutorials ecc.
    Cmq oltre alle java doc che ti ho passato ti mando questo link che ti spega un pò la struttura del tutto.

    http://www.developer.com/java/other/...ene-Part-2.htm

    per la rete si trova altro.

    cmq mette a disposizione api per l'indicizzazioni e la ricerca...okkio agli Analyzer...
    ciauz
    nh

  8. #8
    Utente di HTML.it
    Registrato dal
    Apr 2007
    Messaggi
    143
    [QUOTE]Originariamente inviato da newhook
    quale nuova caratteristica? /QUOTE]

    Intendevo che non sapevo che lucene indicizzasse da solo quei tipi di documenti. Infatti ho perso un sacco di tempo con PDFBox (per i pdf) e altre librerie per indicizzare i documenti di office ... cmq grazie per la dritta!

  9. #9
    Utente di HTML.it
    Registrato dal
    Jun 2009
    Messaggi
    347
    de nada

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.