REGEX: estrazione dati da espressione

**Alex'87** · 01-11-2009, 20:18

Buonasera a tutti

Sto scrivendo un programmino che si collega alla pagina degli "Eventi del Giorno" del sito dell'università e la scarica. Da questa pagina voglio poi estrarre le informazioni relative alle aule ed agli orari in cui sono occupate (per lezioni/esami). Ho analizzato la struttura della pagina ed ho capito come isolare i dati che mi interessano, in pratica ogni riga della tabella è formata da 3 celle, così:

codice:

...
<tr>
  <td class="Content_Chiaro">INSEGNAMENTO</td>
  <td class="Content_Chiaro">ORARIO</td>
  <td class="Content_Chiaro">AULA</td>
</tr>
...

Per estrarre i dati perciò ho scritto questa espressione regolare:

codice:

<td class=\"Content_Chiaro\">.*</td>

(che dovrebbe suonare come "un qualsiasi numero di caratteri compreso tra <td class="Content_Chiaro"> e </td>").

Per funzionare funziona, ma la chiamata a matcher.group() mi restituisce tutta la riga relativa, non solo il contenuto della cella (penso sia normale, giusto?). Ottengo quindi una serie di stringhe così:

codice:

<td class="Content_Chiaro">Algebra</td>
<td class="Content_Chiaro">12.30 - 13.30</td>
<td class="Content_Chiaro">Gino Tessari</td>
<td class="Content_Chiaro">Programmazione</td>
<td class="Content_Chiaro">9.30 - 12.30</td>
<td class="Content_Chiaro">Laboratorio Delta</td>
<td class="Content_Chiaro">Ricerca Operativa</td>
<td class="Content_Chiaro">11.30 - 13.30</td>
<td class="Content_Chiaro">M</td>

ecc.

Questo mi costringe ad usare i metodi di String per liberarmi dei pezzi "in più". Ecco quindi la mia domanda: c'è modo, direttamente con la regex, di ottenere solo ciò che sta in mezzo a <td...> </td>? Mi sfugge qualcosa? :master:

Intanto grazie

Discussione: REGEX: estrazione dati da espressione

Strumenti discussione

Ricerca discussione

Visualizza

Hybrid View

REGEX: estrazione dati da espressione

Permessi di invio