Mi sono accorta di aver fatto un errore nel porre il problema...dunque, il tag non dev'essere compreso nello spazio, ma deve comprendere tutta la riga....quindi dovrebbe venire, per tutte le righe, un lavoro così:
<token forma="Anche" lemmaPos="ANCHE#CS@#" />
<token forma="le'" lemmaPos="LO#RD@FP#" />
e quindi il programma dovrebbe scrivere la prima parola di ogni riga tra le virgolette dell'attributo forma, e il secondo pezzo per l'attributo lemmaPos....e l'espressione regolare dovrebbe comprendere, anche ad inizio di parola, eventuali virgolette e apici...
<token forma="annotazione" />
Anche ANCHE#CS@#
le LO#RD@FP#
formiche FORMICA#S@FP#
nel IN#E@MS#
loro LORO#A@FP#
piccolo PICCOLO#S@MS#
fanno FARE#V@P3IP#
politica POLITICA#S@FS#
. .#@@#
( (#@@#
e E#CC@#
s' SI#PQ@FP3#
incazzano INCAZZARE#V@P3IP#
) )#@@#
1 1#N@#
. .#@@#
I IL#RD@MP#
Un'altra cosa....queste parole, insieme ad altre, sono state disambiguate lessicalmente, ma non tutte...e proprio quelle non disambiuate devono rientrare nei tag così:
<token forma="abc" />
perchè non hanno informazioni grammaticali...quindi servirebbe un'altra espressione regolare che però inserisca la prima parola nel tag e CANCELLI ciò che va dalla lettera maiuscola fino all'ultimo cancelletto........VVoVe: