PDA

Visualizza la versione completa : Parse html in C


Von_Neumann2
11-12-2008, 21:10
E' da un pò che provo a fare questo programma ma sono ancora in alto mare (ammesso che sia davvero salpato dal porto).

A livello teorico, una volta ricevuto il nome del file in input e aperto il file, come dovrei procedere? Più che altro non capisco il ragionamento da seguire per isolare i tag, stabilire che tipo di tag siano e per vedere il testo a che tag sia riferito...

(Sono al primo anno e non ho mai fatto informatica prima, per cui non serve che sia un programma super-efficente, ma basta che ne faccia uno buono e strutturato ).

Danke :)

menphisx
11-12-2008, 21:30
Ti faccio un'esempio:
Input -> Divisione in token -> Analisi dei token -> posizionamento dei token in una struttura ad albero.

Comincia con lo scrivere il tokenizer, che divide in vari token.
Es:


<span style="color: blue;"></span>

token tipo
< inizio tag
span nome tag
style attributo
= operatore
"color: blue;" stringa
> fine tag
</ terminazione tag
span nome tag
> fine tag


Questo finisce in un albero, figlio del nodo "superiore".
Ad esempio se span è contenuto all'interno di div, span sarà figlio di div.
Le informazioni sul tag le puoi memorizzare a loro volta in un albero, o in una struttura dati apposita.

Loading