Per me quello numerico è un token unico, non mi interessa lo devo eliminare.
Può avere lunghezza variabile, ma è sempre compreso tra due trattini "-"

in pratica se c'era una tabella con due colonne
testo | codice

pippo | -20-1-23-
paperino | -23-6-1-10-
pluto | -3-4-7-0-

io avrei analizzato solo la prima colonna