Parsing HTML con XmlTextReader

**DeBe99** · 20-10-2004, 11:54

sto cercando di fare il parsing di una pagina html utilizzando xmlTextReader e leggendelo come xml. Il problema è che gli html non sono xml validabili perchè molti tag sono privi del tag di chiusura.
Qualcuno conosce un modo per evitare errori causati da tag non chiusi?

**riccardone** · 20-10-2004, 16:47

Originariamente inviato da DeBe99
sto cercando di fare il parsing di una pagina html utilizzando xmlTextReader e leggendelo come xml

sei sicuro di poter leggere html come fosse xml? io credo di no. Sono due cose simili ma diverse.
In giro per la rete ho trovato questo
http://www.gotdotnet.com/Community/U...4-C3BD760564BC
che forse potrebbe metterti su una strada piu' giusta

**DeBe99** · 20-10-2004, 17:05

Originariamente inviato da riccardone
sei sicuro di poter leggere html come fosse xml? io credo di no. Sono due cose simili ma diverse.
In giro per la rete ho trovato questo
http://www.gotdotnet.com/Community/U...4-C3BD760564BC
che forse potrebbe metterti su una strada piu' giusta

non ne ero perniente sicuro, più che altro ci speravo

L'esempio per la conversione è interessante, ma mi sa che opterò per un parsing ad hoc, la lettura più che altro mi serve per leggere gli attributi di alcuni elementi (form e hidden) di pagine esterne al nostro sito

**riccardone** · 20-10-2004, 17:22

Originariamente inviato da DeBe99
non ne ero perniente sicuro, più che altro ci speravo

L'esempio per la conversione è interessante, ma mi sa che opterò per un parsing ad hoc, la lettura più che altro mi serve per leggere gli attributi di alcuni elementi (form e hidden) di pagine esterne al nostro sito

Se sai quali sono i tag che ti interessa trovare in un testo (es. il codice della pagina web) una buona strada possono essere le regular expressions

**DeBe99** · 20-10-2004, 17:26

Originariamente inviato da riccardone
Se sai quali sono i tag che ti interessa trovare in un testo (es. il codice della pagina web) una buona strada possono essere le regular expressions

:master: bho io pensavo più a una ricerca con indexof(...)...
con le regular expression come lo imposteresti?

**riccardone** · 20-10-2004, 22:39

Una funzione accetta come parametro una stringa (il codice della pagina web) e ci tira fuori i tags al suo interno che ti interessa trovare. Un esempio di regular expression

codice:

m_pattern = "<" & m_dr.Name & "[^>]*>(.*?)</" & m_dr.Name & ">"

messa all'interno di un ciclo. Il ciclo lo fai sulla datatable (come si vede tipizzata) da cui proviene la riga m_dr e che contiene i tags che voglio trovare. Se sono pochi e sono sempre gli stessi ti puoi risparmiare di fare datatable e cicli. Sostituisci m_dr.Name con il nome del tuo tag.
Quando viene trovato nel codice html il tag ricercato ottieni il suo contenuto. Nel framework c'e' un namespace intero solo per le regular expression con tanti strumenti utili
System.Text.RegularExpressions

**DeBe99** · 21-10-2004, 10:32

grazie

Discussione: Parsing HTML con XmlTextReader

Strumenti discussione

Ricerca discussione

Visualizza

Parsing HTML con XmlTextReader

Re: Parsing HTML con XmlTextReader

Re: Re: Parsing HTML con XmlTextReader

Re: Re: Re: Parsing HTML con XmlTextReader

Re: Re: Re: Re: Parsing HTML con XmlTextReader

Permessi di invio