First of all, salve a tutti!
Domandina da un milione di dollari...
Sto tentando disperatamente di scrivere un'applicazione C++ per il riconoscimento vocale avanzato che, oltre a riconoscere le frasi pronunciate, analizzi la voce per ricavarne dati (ad esempio l'intensità, il tono...).
Una volta registrata ogni singola frase in un file wav, lo dò in pasto a due applicazioni (per il riconoscimento uso Dragon 7 SDK) che fanno il loro dovere.
Il problema è... registrarla! Tra le varie soluzioni provate:
- registrare con waveInxxx piccoli pezzi di suono e considerare voce solo quelli che superano una certa intensità (fallito: la soglia varia da PC a PC)
- usare l'evento "voce iniziata" di Dragon (fallito: è notificato troppo tardi, e la prima parte della frase si perde)
- usare programmi che creino i wav automaticamente (fallito: è impossibile sapere dall'esterno *quando* li creano, e comunque non ce ne sono open source)
Qualcuno ha idee migliori e... funzionanti?