Pagina 1 di 2 1 2 ultimoultimo
Visualizzazione dei risultati da 1 a 10 su 12
  1. #1

    array, lista o db di termini no significativi in italiano

    Salve a tutti,

    utilizzo una piccola funzione che misura la densità di termini all'interno di una stringa ed estrae un elenco dei 10/15 terminini più usati, che ovviamente poi uso per automatizzare delle procedure di tagging e topicità.

    il limite di questa funzione sta nel fatto (al di là dei problemi di stemming che per il momento non voglio neanche affrontare) che considera anche avverbi, prononi (cmq + lunghi di 4 caratteri) e aggettivi e termini di uso troppo comune (anche, troppo, bello, principali, questo etc...) che non hanno una reale rilevanza ai fini della determinazione dell'insieme di termini topici.

    ho quindi aggiunto un array alla funzione che contiene un elenco di termini da escludere perentoriamente in fase di determinazione dell'elenco stesso, il punto è che questo elenco è non solo molto parziale e incompleto, ma di difficile completamento data la vastità di possibili termini a basso indice di rilevanza.

    Ho cercato un elenco testo, ASCII o interno magari a mysql, ma ho trovato solo indicazioni inutilizzabili per me per msql 2005...

    qualcuno conosce una possibile sorgente per questo tipo di elenco?

    ringrazio per ogni tipo di aiuto
    un saluto al forum

    m

  2. #2
    Perchè non utilizzi delle tecniche di stemming?

    In questo modo puoi ridurre il numero di parole "uniche" ed eventualmente aggirare il problema delle stop words.

  3. #3
    il mio problema non consiste nell'avere il token di termini simili o declinati, non voglio cioè discernere tra altro e altri per esempio, a me serve fare in modo che altro, altri, questo, questa e tutte le parole troppo comuni che non hanno una rilevanza specifica nel contesto siano semplicemente escluse, come fosse una black list di termini, che è già implementata tra l'altro, mi manca proprio un elenco anche non perfetto, una base di partenza di termini troppo comuni sulla quale impostare il lavoro.

    grazie per la risposta cmq

    m.

  4. #4
    no news good news? :P

  5. #5
    Utente di HTML.it L'avatar di dottwatson
    Registrato dal
    Feb 2007
    Messaggi
    3,012
    ricordo che una volta trovai un elenco di parole italiane in file di testo, da poter scansionare a scopo dizionaristico.. se ne trovano in rete ma spesso non sono aggiornati all' utima parola italiana


    prova su google con elenco parole italiane e poi da li riusciresti ad avere una base di terminologie comuni
    Non sempre essere l'ultimo è un male... almeno non devi guardarti le spalle

    il mio profilo su PHPClasses e il mio blog laboweb

  6. #6
    Utente di HTML.it L'avatar di dottwatson
    Registrato dal
    Feb 2007
    Messaggi
    3,012
    questo potrebbe fare al caso tuo...

    http://www.sastgroup.com/downloads/words.italian.zip
    Non sempre essere l'ultimo è un male... almeno non devi guardarti le spalle

    il mio profilo su PHPClasses e il mio blog laboweb

  7. #7
    grazie dottwatson, direi... "palo", nel senso che sono più di 60k termini, tra i quali ce ne sono di molto specifici, quello che cerco in realtà è un elenco che immagino composto da circa 2/5.000 termini, privi di significante specifico/topico, del tipo:

    come, dove, quando, altro, perchè, quindi, ecco, bello, brutto, grande, piccolo, ancora etc etc...

    ti ringrazio cmq per l'aiuto

    mic

  8. #8
    Utente di HTML.it L'avatar di dottwatson
    Registrato dal
    Feb 2007
    Messaggi
    3,012
    e queste parole non ci sono nell' elenco che ti ho dato?
    Non sempre essere l'ultimo è un male... almeno non devi guardarti le spalle

    il mio profilo su PHPClasses e il mio blog laboweb

  9. #9
    certo che ci sono, solo che, per quanto affascinante come ipotesi, non ho due settimane di tempo da dedicare per levare le 60.000 che non dovrebbero esserci :P

  10. #10
    Utente di HTML.it L'avatar di dottwatson
    Registrato dal
    Feb 2007
    Messaggi
    3,012
    e chi ha detto che devi farlo a manina potresti anche fartelo con uno script...
    Non sempre essere l'ultimo è un male... almeno non devi guardarti le spalle

    il mio profilo su PHPClasses e il mio blog laboweb

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.