Salve a tutti,
avrei bisogno di un software che mi permetta di fare il parsing di un documento di testo e convertirlo da .doc a .html e viceversa, a seconda della necessità.
Finora ho usato il tool di MS Word 2003 per generare una pagina html dal documento, ma il risultato è veramente scandaloso. Io vorrei un codice il più pulito possibile; mi basterebbe anche solo che tutti i grassetti andassero tra i tag , i corsivi tra i tag e così via.
Ho cercato un po' nel web, ma non ho trovato nulla di soddisfacente.
Ho pensato quindi di sviluppare un programma in Java, ma il problema è che non ho idea di come poter rilevare la formattazione del testo. Sapete per caso se esiste una libreria per questo? Io cercando qua e là ho trovato Apache POI:
Ho notato che ci sono metodi interessanti, come getParagraphText() , che in pratica fa il fetch del .doc e splitta i vari paragrafi dentro a un array; in questo modo potrei aggiungereFor .doc files from Word 97 - Word 2003, in scratchpad there is org.apache.poi.hwpf.extractor.WordExtractor, which will return text for your document.
</p> ed ecco che avrei separato i paragrafi.
Ma per grassetto, corsivo e sottolineato non ho trovato nessun metodo... per caso conoscete una libreria migliore? Se sì per favore segnalatemela... grazie!

Rispondi quotando