Plain text da documento generico

**pippomuzzo** · 12-09-2016, 14:39

Salve. Avrei bisogno di ricavare in java il testo semplice da un documento generico. In pratica prendo tale documento da un URL generico e quindi non so a priori in che formato sia (html, pdf, doc, rtf.....) e dovrei ricavare il testo semplice dal documento.

Qualcuno conosce una libreria che faccia ciò?

Grazie Anticipatamente.

**LeleFT** · 12-09-2016, 16:15

HTML è un formato di markup.
PDF è un formato binario proprietario di Adobe.
DOC è un formato binario proprierario di Microsoft
RTF è un altro formato di markup.

Senza conoscere con esattezza il formato del documento non vai da nessuna parte.

Ciao.

**pippomuzzo** · 12-09-2016, 16:38

Come immaginavo. Qualcuno conosce qualche libreria per trasformare in plaintext pdf doc e html. Poi gestirï¿½ manualmente il capire di che formato ï¿½ il documento scaricato.

**schumy2000** · 13-09-2016, 10:04

Ciao,
JSoup per scandire le pagine HTML
Apache POI per aprire i doc, docx e mi sembra anche RTF (puoi guardare nella documentazione)
iText per aprire e lavorare sui PDF.

L'unico di cui ho il dubbio è iText perché io l'ho usato più che altro per scrittura.
La lettura da un PDF è abbastanza ostica se il documento non è ben formato.

**pippomuzzo** · 13-09-2016, 10:22

Grazie. In questo momento sto usando Jsoup, Apache POI e PDFBox. Vi faccio sapere poi come si comportano.

**pippomuzzo** · 13-09-2016, 15:03

Con le librerie sopra citate sembra funzionare bene. Nel frattempo ho trovato questa libreria se a qualcuno può fare comodo: https://tika.apache.org/index.html che fa esattamente quello che dicevo nel primo post, cioè riconosce il tipo di file e ne ricava il plain text, supporta moltissimi formati, unica pecca l'ho trovata un po lenta.

**schumy2000** · 13-09-2016, 16:24

Grazie per la dritta.
Ciao.

Discussione: Plain text da documento generico

Strumenti discussione

Ricerca discussione

Visualizza

Plain text da documento generico

Tag per questa discussione

Permessi di invio