[JAVA] Parser html con xml bean, ma non va coi caratteri speciali

**darkmen** · 07-02-2011, 00:56

Salve a tutti,
avendo bisogno di un parser html (voglio recuperare informazioni contenute in alcune pagine web) e avendo avuto a che fare con xmlbeans di apache ho provato a mettere insieme le cose.
Ho preso uno schema di xHtml (a proposito ne ho trovati tre diversi) e ho creato tramite xmlbeans le classi corrispondenti.

Quando vado a fare il parsing della pagina xò non riconosce i caratteri speciali tipo gli spazi (in html si usa &nbsp per indicare lo spazio) e solleva un eccezzione quando li incontra.

come posso risolvere? e che ne dite del mio metodo per parsare l'html?
grazie a tutti!!

**darkmen** · 09-02-2011, 23:15

qual'è il problema nessuno conosce xml beans? e pure in quel caso nessuno si avventura a dare una possibile soluzione diversa?

**satifal** · 09-02-2011, 23:40

Ho utilizzato xmlbeans anche se utilizzo prevalentemente JAXB e comunque esso sono parser XML il quale segue rigide regole strutturali e grammaticali a differenza dell'HTML per cui non è oppurtuno utilizzarli per parserizzare appunto l'HTML. Comunque vi sono varie librerie adatte allo scopo. Io non ho mai avuto la necessità di utilizzarle ma prova a dare un'occhiata a questi HTML Parser

Discussione: [JAVA] Parser html con xml bean, ma non va coi caratteri speciali

Strumenti discussione

Ricerca discussione

Visualizza

[JAVA] Parser html con xml bean, ma non va coi caratteri speciali

Permessi di invio