PDA

Visualizza la versione completa : Esiste una stopword list italiana già pronta?


}gu|do[z]{®©
18-10-2004, 00:16
Scusate la domanda che spero no sia ot e spero no suoni ridicola....

devo limitare la dimensione del DB del mio forum.. ci sono 7MB solo di indicizzazione di parole e simili... e ho scoperto che inserento una stopword list evito l'indicizzazione di queste parole... [e chiaramente posso cancellare quelle già indicizzate ^_^].. il punto è che farmi da solo una stopword list con le aprole più comuni banali e meno utili... è un'impresa folle.. esiste quindi una stopword list generica da scaricare da qualche parte ed usare?

altrimenti qualcuno di voi che ne usa una pe ril proprio forum o altro... me la passerebbe?

grazie :)

:ciauz:

Low
18-10-2004, 00:27
Qui c'è una lista di stopword per diverse lingue, ma sono mischiate e dovrai estrapolare quelle italiane:

http://library.wur.nl/isis/docum.html

}gu|do[z]{®©
18-10-2004, 00:46
Originariamente inviato da Low
Qui c'è una lista di stopword per diverse lingue, ma sono mischiate e dovrai estrapolare quelle italiane:

http://library.wur.nl/isis/docum.html

grazie.. se non trovo di meglio penso che vada bene anche così.. che me ne frega di indicizzare parole straniere? :D

se qualcuno ha di meglio cmq.... :)

grazie mille a tutti in ogni caso :)

Low
18-10-2004, 00:47
Bastano?

http://www.cilea.it/Virtual_Library/opac/stopword.htm

}gu|do[z]{®©
18-10-2004, 01:00
buh.. penso che l'uno valga l'altro.. non so.. ^__^

al limite se ho tempo faccio uno scrptino che mi cerca le parole che non sono presenti in una delle due liste e le aggiungo all'altra... così ho una lista + completa.. grazie ancora..

giorgiotave
18-10-2004, 01:36
Originariamente inviato da }gu|do[z]{®©
buh.. penso che l'uno valga l'altro.. non so.. ^__^

al limite se ho tempo faccio uno scrptino che mi cerca le parole che non sono presenti in una delle due liste e le aggiungo all'altra... così ho una lista + completa.. grazie ancora..


Facci sapere.........che interessa a tutti qua

}gu|do[z]{®©
18-10-2004, 01:40
per chi usa phpbb...

SELECT ls.word_id, ls.word_text, COUNT(wm.word_id) as entries FROM `phpbb_search_wordlist` as ls LEFT JOIN `phpbb_search_wordmatch` as wm ON ls.word_id=wm.word_id GROUP BY wm.word_id ORDER BY entries DESC LIMIT 0,50

con questa query tirate fuori le 50 parole + usate sul proprio forum... che possono dare ottimi indizi sulle stopwords... ogni contesto può richiedere stopwords diverse.. penso... per il resto integro con ciò che trovo in giro.. renderò disponibile ^_^

giorgiotave
18-10-2004, 02:09
Originariamente inviato da }gu|do[z]{®©
per chi usa phpbb...

SELECT ls.word_id, ls.word_text, COUNT(wm.word_id) as entries FROM `phpbb_search_wordlist` as ls LEFT JOIN `phpbb_search_wordmatch` as wm ON ls.word_id=wm.word_id GROUP BY wm.word_id ORDER BY entries DESC LIMIT 0,50

con questa query tirate fuori le 50 parole + usate sul proprio forum... che possono dare ottimi indizi sulle stopwords... ogni contesto può richiedere stopwords diverse.. penso... per il resto integro con ciò che trovo in giro.. renderò disponibile ^_^


Thanks ......................io ho phpbb

ciao guidoz

Niroshi
18-10-2004, 10:24
what's stopword?

Low
18-10-2004, 10:46
what's stopword?


In questo caso ci si riferisce a parole che non si vuole siano indicizzate in un database.

Loading