Parsing pagina html

**LaFleur** · 12-10-2012, 15:05

salve a tutti, dovrei estrapolare dei dati da mettere in un db da alcune pagine html, ho scelto perl su consiglio di un mio amico ma non so dove mettere le mani, quindi se ci sono metodi anche in Java sono ben accetti.

La pagina principale è un elenco con relativi collegamenti, esempio:
......
primo elemento</font>[/b]</td>
</tr>
<tr valign='Top'><td><font size='2' color='#ff0000' face='Verdana'>
secondo elemento</font>[/b]</td>
</tr>
.......

io devo prendere solo "primo elemento" , "secondo elemento",....

poi di "primo elemento" e anche degli altri devo andare al collegamento href, che sarà un altra pagina html dove vi è una tabella con gli attributi dell'elemento.

"primo elemento" prima pagina html
"attributi primo elemento" seconda pagina html

è possibile quindi avere alla fine un elenco ordinato di elementi con i lori rispettivi attributi?

**MItaly** · 12-10-2012, 15:14

Se conosci Java perché complicarti la vita usando un linguaggio che non conosci? In ogni caso, ciò di cui hai bisogno è un parser HTML; molti in Java usano TagSoup (parser SAX) o jsoup (parser DOM più altre features, forse più comodo per i tuoi fini), dato che sono in grado di gestire più o meno correttamente le tonnellate di HTML "malscritto" che si trova nel "mondo vero" del web.

Se mi confermi che vuoi proseguire in Java ti sposto nell'apposita sezione, altrimenti dimmi che linguaggio vuoi usare che lo aggiungo al titolo come tag (come da regolamento).

**LaFleur** · 12-10-2012, 15:17

java è perfetto, io avevo trovato questo ma non capisco come funziona...

http://www.bigthink.it/java-parsing-di-una-pagina-html/

**MItaly** · 12-10-2012, 15:22

Originariamente inviato da LaFleur
java è perfetto, io avevo trovato questo ma non capisco come funziona...

http://www.bigthink.it/java-parsing-di-una-pagina-html/

Cosa non capisci? La sintassi XPath? In ogni caso non sei obbligato ad usarla, puoi tranquillamente "navigare" nell'albero DOM dell'oggetto Document come si farebbe ad esempio da JavaScript...

**francesco.muia** · 12-10-2012, 15:22

L'esempio che hai postato direi che è abbastanza completo, utilizza JTidy per ripulire la pagina da caratteri e o tag sporchi, dopo di che utlizza xpath per ottenere i tag e o il testo che gli interessa.
Cos'è che non ti è chiaro ?

**LaFleur** · 12-10-2012, 15:25

prima cosa come fare ad andare in "profondità" ovvero a prendere gli attributi degli elementi che sono in a href, poi non capisco cosa devo mettere al posto di
String pattern = "//body/a";

**francesco.muia** · 12-10-2012, 15:28

Lo stai già facendo con le "//" cmq ti consiglio se proprio vuoi usare XPATH di documentarti...

**LaFleur** · 13-10-2012, 12:45

ma perché sulla consolle non stampa niente???

**francesco.muia** · 13-10-2012, 12:51

ehm... Aspetta che controllo la mia sfrera di cristallo e poi te lo dico....
Magari se posti il codice che hai scritto e la pagina in questione forse....

**LaFleur** · 13-10-2012, 12:59

codice:

static URL url;
	
	public static void main(String[] args) throws IOException, XPathExpressionException {
		// TODO Auto-generated method stub
		URL url = new URL("http://www.paginaprova.it");
		BufferedInputStream page = new BufferedInputStream(url.openStream());
		Tidy tidy = new Tidy();
		tidy.setQuiet(true);
		tidy.setShowWarnings(false);
		Document response = tidy.parseDOM(page, null);
		XPathFactory factory = XPathFactory.newInstance();
		XPath xPath=factory.newXPath();
		String pattern = "//body/a";
		NodeList nodes = (NodeList)xPath.evaluate(pattern, response, XPathConstants.NODESET);
		for (int i = 0; i < nodes.getLength(); i++) {
	        System.out.println((String) nodes.item(i).getNodeValue());
	}
		
	}

praticamente dovrebbe stampare i nodi però non stampa niente...

Discussione: Parsing pagina html

Strumenti discussione

Ricerca discussione

Visualizza

Parsing pagina html

Permessi di invio