REGEX: estrazione dati da espressione

**Alex'87** · 01-11-2009, 20:18

Buonasera a tutti

Sto scrivendo un programmino che si collega alla pagina degli "Eventi del Giorno" del sito dell'università e la scarica. Da questa pagina voglio poi estrarre le informazioni relative alle aule ed agli orari in cui sono occupate (per lezioni/esami). Ho analizzato la struttura della pagina ed ho capito come isolare i dati che mi interessano, in pratica ogni riga della tabella è formata da 3 celle, così:

codice:

...
<tr>
  <td class="Content_Chiaro">INSEGNAMENTO</td>
  <td class="Content_Chiaro">ORARIO</td>
  <td class="Content_Chiaro">AULA</td>
</tr>
...

Per estrarre i dati perciò ho scritto questa espressione regolare:

codice:

<td class=\"Content_Chiaro\">.*</td>

(che dovrebbe suonare come "un qualsiasi numero di caratteri compreso tra <td class="Content_Chiaro"> e </td>").

Per funzionare funziona, ma la chiamata a matcher.group() mi restituisce tutta la riga relativa, non solo il contenuto della cella (penso sia normale, giusto?). Ottengo quindi una serie di stringhe così:

codice:

<td class="Content_Chiaro">Algebra</td>
<td class="Content_Chiaro">12.30 - 13.30</td>
<td class="Content_Chiaro">Gino Tessari</td>
<td class="Content_Chiaro">Programmazione</td>
<td class="Content_Chiaro">9.30 - 12.30</td>
<td class="Content_Chiaro">Laboratorio Delta</td>
<td class="Content_Chiaro">Ricerca Operativa</td>
<td class="Content_Chiaro">11.30 - 13.30</td>
<td class="Content_Chiaro">M</td>

ecc.

Questo mi costringe ad usare i metodi di String per liberarmi dei pezzi "in più". Ecco quindi la mia domanda: c'è modo, direttamente con la regex, di ottenere solo ciò che sta in mezzo a <td...> </td>? Mi sfugge qualcosa? :master:

Intanto grazie

**andbin** · 01-11-2009, 21:58

Originariamente inviato da Alex'87
Per estrarre i dati perciò ho scritto questa espressione regolare:

codice:

<td class=\"Content_Chiaro\">.*</td>

ma la chiamata a matcher.group() mi restituisce tutta la riga relativa, non solo il contenuto della cella (penso sia normale, giusto?).

È normale ciò che hai ottenuto fino ad adesso perché solo * è un quantificatore "greedy" (ingordo) ovvero cerca di catturare il più possibile. Usa il quantificatore *? che invece è "reluctant" (riluttante) e cerca di catturare il meno possibile.

Quindi nel tuo caso "....>.*?<...."

**Alex'87** · 02-11-2009, 11:22

Originariamente inviato da andbin
È normale ciò che hai ottenuto fino ad adesso perché solo * è un quantificatore "greedy" (ingordo) ovvero cerca di catturare il più possibile. Usa il quantificatore *? che invece è "reluctant" (riluttante) e cerca di catturare il meno possibile.

Quindi nel tuo caso "....>.*?<...."

Grazie per la risposta! Ho provato ora (ieri sera la tabella era vuota) ma l'output resta uguale :master:

Questo è il codice, mi è sfuggito qualcos'altro?

codice:

String input = downloadCode(...);
String regex = "<td class=\"Content_Chiaro\">.*?</td>";
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(input);

...

while (matcher.find()) {
	String temp = matcher.group();
	System.out.println(temp);

        ...
}
...

**andbin** · 02-11-2009, 11:45

Originariamente inviato da Alex'87
ma l'output resta uguale :master:

Sì, ti spiego meglio. Solo con .* come ho detto prima è "greedy" ovvero cerca di catturare il più possibile. In effetti non ho fatto attenzione subito all'esempio che hai postato ma da quello che si vede, ogni cella è su una riga diversa. Il '.' per default non fa il match con il newline (a meno che usi il flag DOTALL) e in questo caso specifico usare .* o .*? non cambia nulla.

Se avessi più celle <td> sulla stessa riga .... sì, cambia!! Perché .* cattura il più possibile (quindi se hai 2 celle sulla riga: <td>...</td><td>....</td> la regex cattura tutto questo) mentre con .*? solo 1 cella cioè il minimo possibile.
In ogni caso ti conviene usare .*? perché visto che quella pagina non l'hai fatta tu, se un giorno decidono di cambiare la struttura e mettere tutte le <td> sulla stessa riga, con .* combini macelli.

Detto questo, capisco (solo ora ... già .. non l'avevo letto bene ieri

) che vuoi catturare in modo particolare solo il contenuto che c'è nel <td>. In questo caso basta che metti un "gruppo" cioè qualcosa tra parentesi ....(.*?)..... e poi usi group(1) per prenderlo.

**Alex'87** · 02-11-2009, 12:39

Grazie mille per la spiegazione, ora funziona perfettamente!!

Discussione: REGEX: estrazione dati da espressione

Strumenti discussione

Ricerca discussione

Visualizza

REGEX: estrazione dati da espressione

Re: REGEX: estrazione dati da espressione

Re: Re: REGEX: estrazione dati da espressione

Re: Re: Re: REGEX: estrazione dati da espressione

Permessi di invio