Visualizzazione dei risultati da 1 a 7 su 7
  1. #1

    Plain text da documento generico

    Salve. Avrei bisogno di ricavare in java il testo semplice da un documento generico. In pratica prendo tale documento da un URL generico e quindi non so a priori in che formato sia (html, pdf, doc, rtf.....) e dovrei ricavare il testo semplice dal documento.

    Qualcuno conosce una libreria che faccia ciò?

    Grazie Anticipatamente.

  2. #2
    Moderatore di Programmazione L'avatar di LeleFT
    Registrato dal
    Jun 2003
    Messaggi
    17,320
    HTML è un formato di markup.
    PDF è un formato binario proprietario di Adobe.
    DOC è un formato binario proprierario di Microsoft
    RTF è un altro formato di markup.

    Senza conoscere con esattezza il formato del documento non vai da nessuna parte.


    Ciao.
    "Perchè spendere anche solo 5 dollari per un S.O., quando posso averne uno gratis e spendere quei 5 dollari per 5 bottiglie di birra?" [Jon "maddog" Hall]
    Fatti non foste a viver come bruti, ma per seguir virtute e canoscenza

  3. #3
    Come immaginavo. Qualcuno conosce qualche libreria per trasformare in plaintext pdf doc e html. Poi gestir� manualmente il capire di che formato � il documento scaricato.

  4. #4
    Ciao,
    JSoup per scandire le pagine HTML
    Apache POI per aprire i doc, docx e mi sembra anche RTF (puoi guardare nella documentazione)
    iText per aprire e lavorare sui PDF.

    L'unico di cui ho il dubbio è iText perché io l'ho usato più che altro per scrittura.
    La lettura da un PDF è abbastanza ostica se il documento non è ben formato.
    Ultima modifica di schumy2000; 13-09-2016 a 10:12
    I computer sono incredibilmente veloci, accurati e stupidi.
    Gli uomini sono incredibilmente lenti, inaccurati e intelligenti.
    Insieme sono una potenza che supera l'immaginazione.

    A.Einstein

  5. #5
    Grazie. In questo momento sto usando Jsoup, Apache POI e PDFBox. Vi faccio sapere poi come si comportano.

  6. #6
    Con le librerie sopra citate sembra funzionare bene. Nel frattempo ho trovato questa libreria se a qualcuno può fare comodo: https://tika.apache.org/index.html che fa esattamente quello che dicevo nel primo post, cioè riconosce il tipo di file e ne ricava il plain text, supporta moltissimi formati, unica pecca l'ho trovata un po lenta.

  7. #7
    Grazie per la dritta.
    Ciao.
    I computer sono incredibilmente veloci, accurati e stupidi.
    Gli uomini sono incredibilmente lenti, inaccurati e intelligenti.
    Insieme sono una potenza che supera l'immaginazione.

    A.Einstein

Tag per questa discussione

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.