PDA

Visualizza la versione completa : conteggio parole, caratteri...


alkat
12-09-2004, 12:08
ciao,
mi sembra di ricordare che ci sia un comando che permette di contare le parole e i caratteri (magari con e senza spazi) contenuti nei vari tipi di file di testo (.sxw, .rtf, .txt, .doc, ecc... anche html?) direttamente da shell; esiste? qual è?

.a.

maiosyet
12-09-2004, 12:12
[maiosyet]@[alcibiade]-[~] wc --help
Usage: wc [OPTION]... [FILE]...
Print newline, word, and byte counts for each FILE, and a total line if
more than one FILE is specified. With no FILE, or when FILE is -,
read standard input.
-c, --bytes print the byte counts
-m, --chars print the character counts
-l, --lines print the newline counts
-L, --max-line-length print the length of the longest line
-w, --words print the word counts
--help display this help and exit
--version output version information and exit

Report bugs to <bug-coreutils@gnu.org>.
[maiosyet]@[alcibiade]-[~]

Dovrebbe essere questo :)

alkat
12-09-2004, 12:29
sì, il comando è quello... però dà risultati assurdi!

se conto le parole dello stesso testo con wc e con abiword ottengo questo:

wc: 701
abiword: 596

e uno dice, "vabbe', sbaglia solo di un centinaio di parole (!)"

però se calcolo i caratteri:
wc: 23040
abiword: 3860 (spazi inclusi)

e poi le linee:
wc: 13
abiword: 68

mi sa che c'è qualcosa che non va...

.a.


Edit: bello il nome della tua linux box! ;o)

Ikitt
12-09-2004, 12:42
Originariamente inviato da alkat
sì, il comando è quello... però dà risultati assurdi!
[...]
mi sa che c'è qualcosa che non va...


Il confronto non ha granche` senso AFAIK. Il fatto e` che, a quanto ne so, abiword usa una-cosa-tipo-xml-forse-proprio-xml per salvare i file, in modo da potergli (e gestire) dare una struttura.
Conseguentemente, il conteggio delle parole/caratteri terra` conto delle informazioni di struttura, revisione (metadati, in geenere), e NON li conteggera`.
wc considera invece l'input come file di testo e conta bruttamente tutto.
E` piu` che lecito aspettarsi che, con queste premesse, il conto non torni.

Sym81
12-09-2004, 13:23
Si, usa proprio xml :)

Loading