Visualizzazione dei risultati da 1 a 7 su 7
  1. #1

    Parsing HTML con XmlTextReader

    sto cercando di fare il parsing di una pagina html utilizzando xmlTextReader e leggendelo come xml. Il problema è che gli html non sono xml validabili perchè molti tag sono privi del tag di chiusura.
    Qualcuno conosce un modo per evitare errori causati da tag non chiusi?

  2. #2

    Re: Parsing HTML con XmlTextReader

    Originariamente inviato da DeBe99
    sto cercando di fare il parsing di una pagina html utilizzando xmlTextReader e leggendelo come xml
    sei sicuro di poter leggere html come fosse xml? io credo di no. Sono due cose simili ma diverse.
    In giro per la rete ho trovato questo
    http://www.gotdotnet.com/Community/U...4-C3BD760564BC
    che forse potrebbe metterti su una strada piu' giusta
    Saluti a tutti
    Riccardo

  3. #3

    Re: Re: Parsing HTML con XmlTextReader

    Originariamente inviato da riccardone
    sei sicuro di poter leggere html come fosse xml? io credo di no. Sono due cose simili ma diverse.
    In giro per la rete ho trovato questo
    http://www.gotdotnet.com/Community/U...4-C3BD760564BC
    che forse potrebbe metterti su una strada piu' giusta
    non ne ero perniente sicuro, più che altro ci speravo
    L'esempio per la conversione è interessante, ma mi sa che opterò per un parsing ad hoc, la lettura più che altro mi serve per leggere gli attributi di alcuni elementi (form e hidden) di pagine esterne al nostro sito

  4. #4

    Re: Re: Re: Parsing HTML con XmlTextReader

    Originariamente inviato da DeBe99
    non ne ero perniente sicuro, più che altro ci speravo
    L'esempio per la conversione è interessante, ma mi sa che opterò per un parsing ad hoc, la lettura più che altro mi serve per leggere gli attributi di alcuni elementi (form e hidden) di pagine esterne al nostro sito
    Se sai quali sono i tag che ti interessa trovare in un testo (es. il codice della pagina web) una buona strada possono essere le regular expressions
    Saluti a tutti
    Riccardo

  5. #5

    Re: Re: Re: Re: Parsing HTML con XmlTextReader

    Originariamente inviato da riccardone
    Se sai quali sono i tag che ti interessa trovare in un testo (es. il codice della pagina web) una buona strada possono essere le regular expressions
    :master: bho io pensavo più a una ricerca con indexof(...)...
    con le regular expression come lo imposteresti?

  6. #6
    Una funzione accetta come parametro una stringa (il codice della pagina web) e ci tira fuori i tags al suo interno che ti interessa trovare. Un esempio di regular expression
    codice:
    m_pattern = "<" & m_dr.Name & "[^>]*>(.*?)</" & m_dr.Name & ">"
    messa all'interno di un ciclo. Il ciclo lo fai sulla datatable (come si vede tipizzata) da cui proviene la riga m_dr e che contiene i tags che voglio trovare. Se sono pochi e sono sempre gli stessi ti puoi risparmiare di fare datatable e cicli. Sostituisci m_dr.Name con il nome del tuo tag.
    Quando viene trovato nel codice html il tag ricercato ottieni il suo contenuto. Nel framework c'e' un namespace intero solo per le regular expression con tanti strumenti utili
    System.Text.RegularExpressions
    Saluti a tutti
    Riccardo

  7. #7
    grazie

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2026 vBulletin Solutions, Inc. All rights reserved.