Ciao ragazzi imploro il vostro aiuto, sono da un paio di ore su questo codice e non riesco proprio a venirne fuori.
Devo usare l'algoritmo di lesk per il disambiguation del testo.
Ho già implementato la funzione per il preprocessing del testo e quello che mi ritrovo attualmente è un testo pulito e nella seguente forma:
tokens
codice:
[('I', 'PRP'), ('love', 'VBP'), ('you', 'PRP'), ('for', 'IN'), ('supporting', 'VBG'), ('me', 'PRP'), ('every', 'DT'), ('day', 'NN')]
tokens no stop
codice:
[('I', 'PRP'), ('love', 'VBP'), ('supporting', 'VBG'), ('every', 'DT'), ('day', 'NN')]
tokens stemmed
codice:
[(u'I', 'PRP'), (u'love', 'VBP'), (u'support', 'VBG'), (u'everi', 'DT'), (u'day', 'NN')]
al fine della mia analisi, le parole per me significative sono : nomi (NN), verbi (VBP), aggettivi (JJ) e avverbi(RB). Vorrei innanzitutto creare una funzione che presi in ingresso questi tweet mi ritorna solo le parole che a me servono... come posso fare?
La mia idea sarebbe:
codice:
def return_tag(tokens_t):
for t,part in tokens_t:
if part==("NN") or part==("JJ") or part==("VB") or part ==("RB"):
return tokens_t
ma è completamente sbagliata potreste aiutarmi'?'????