Ciaooo, sto creando una piattaforma per l'analisi delle conversazioni (sto raccogliendo chat di Whatsapp e Facebook).

Per ora, dai messaggi estraggo le parole con una regex standard che cerca la punteggiatura e voglio renderla più specifica, facendo in modo che riconosca anche sequenze di punti e altre espressioni comuni nelle conversazioni e errori tipici come sequenze di punteggiatura (ciao ! .come...) ed infine mi serve che links, mail, date e ore non vengano suddivisi.

Spottate anche tutti i problemi comuni che si incontrano nel processare conversazioni con errori di ortografia e grammatica ed eventuali soluzioni.

Grazie!