Visualizzazione dei risultati da 1 a 4 su 4

Discussione: Riconoscimento Vocale

  1. #1

    Riconoscimento Vocale

    Ciao a tutti!
    Io non sono molto esperto nel linguaggio ActionScript, ma vorrei sapere se è possibile fare una cosa del genere: praticamente dire una parola ad alta voce che la senta il microfono del pc e se corrisponde alla parola registrata prima, attivare l'azione...
    il concetto è semplice...ma è possibile?
    se si mi potete dare qualche indicazione, suggerimento o consiglio e anche un codice? GRAZIE

  2. #2
    Utente di HTML.it L'avatar di NAP
    Registrato dal
    Jan 2001
    Messaggi
    4,398
    Premetto che la risposta è no, ma voglio spiegarti il perché.
    La tacnologia di campionamento dei suoni usa algoritmi complicatissimi che esulano dalle capacità di ActionScript. Ma non è solo questo... il riconoscimento vocale, inteso come riscontro fonetico che vada a corrispondere con una condizione da soddisfare, passa attraverso un'infinità di possibili errori dovuti a:
    -timbro usato nella parola
    -armoniche ambientali che si sommano ai campioni meramente vocali
    -interferenze non udibili che tuttavia vengono registrate e processate (fanno gli stessi danni di "cumulo" di cui sopra)
    -tonalità usata (non siamo robot, e non parliamo sempre nello stesso modo)
    -volume della parola o della frase pronunciata (potrebbe essere alto nei confronti del "già registrato" e quindi generare sovrapilotaggio in ampiezza, fattore detto anche: distorsione o tosatura dei picchi così come il volume troppo basso potrebbe cambiare l'interpretazione, quindi il processo elaborativo del campione di confronto.

    Ci sono anche altri fattori incidenti che tralascio per non annoiarti.

    Far corrispondere, invece, un testo di input ad un suono da lanciare in caso di associazione corretta, è invece un gioco da ragazzi:
    -Immagina, sulla _root, un campo di input con nomeIstanza: parola...
    codice:
    if (_root.parola.text = "ciao") {
    parla = new Sound ();
    parla.attachSound ("ciao");//file audio che sta nella libreria a cui abbiamo dato l'ID: ciao
    parla.start (0,1);
    }
    Questo è possibile perché un testo (o un numero) è la cosa più facile e più sicura da sottoporre ad un confronto computazionale. L'analisi di un suono è diversa, in fatto di complessità, come lo sono un'ameba e un elefante laureato. Perdona quella che sembra un'esagerazione ma ti assicuro che non è sufficiente.
    A volte la diplomazia va condita con un pizzico di siluri fotonici. (K. Janeway)

  3. #3
    chissà se arriveremo a fare una cosa del genere...

    (questa idea mi è venuta guardando il film the iron-man: il protagonista che parla con il suo pc e lui eseguisce gli ordini...ahaha divertente XD

    GRZGRZGRZ

  4. #4
    Utente di HTML.it L'avatar di NAP
    Registrato dal
    Jan 2001
    Messaggi
    4,398
    Ciao,
    questa è una risposta meramente diretta agli aspetti tecnologici e alla fonetica, quindi non è altro che un bel OT.

    I programmi di riconoscimento vocale esistono già dai primi anni 90. Non ricordo quale sia stata la prima casa, ma sviluppò un programma con cui potevi scrivere tramite la semplice dettatura vocale. A quei tempi (non che oggi siano migliori) il programma richiedeva una preparazione lunga e tediosa, nel senso che per arrivare ad un compromesso accettabile per il riconoscimento vocale, bisognava ripetere decine di volte la stessa parola. Ogni volta veniva registrato un campione diverso da mettere a confronto con "la volta successiva".
    Nonostante questa lunga preparazione, a causa di quello che dicevo sopra, l'interprete falliva 5 volte su 10, nel senso che tu dicevi: "quanto costa?", e l'editor scriveva, nella migliore delle ipotesi: "guanto cozza?", oppure "vanto tosta?".
    C'è in gioco anche la fonetica afferente ognuna delle lingue, vale a dire la pronuncia perfetta, quella che chiamano "dizione" della lingua in questione. Queste doti sono appannaggio degli attori che fanno doppiaggio.
    L'Italia è lunga, e si può dire che ogni regione è uno stato a parte, così come le inflessioni dialettali che condizionano la pronuncia dell'italiano. Due soli esempi: i romani dicono: "bène" (con la e aperta, spalancata), ed è corretto. In altre regioni si dice: "béne" (col la e chiusa (incorretto). Questo può già bastare per "confondere" il confronto tra campioni vocali (quello che dici vs quello che c'è registrato nel file). I piemontesi e i siciliani dicono: "ròsso" (con la o spalancata) ma la dizione corretta esige: "rósso" (con la o chiusa).

    In seguito, la stessa tecnica di dettatura vocale venne usata per gestire il computer in questo modo:
    l'operatore guarda le voci di menu e, per esempio, dice: "Modifica". Trattandosi di una parola singola, e piuttosto esclusiva, basta dire: "modif", e quindi il menu Modifica si apre. La stessa cosa vale per parole tipo: "Opzioni"; essendo anch'essa piuttosto esclusiva, basta dire: "Opz".
    Ho fatto solo due esempi ma da lì puoi capire tutto.

    Non escludo che nel mondo dei grandissimi Flasher ci sia qualcuno in grado di sviluppare un programma del genere ma, per farlo, non basta AS e il FlashPlayer... occorrono altri linguaggi che vadano ad interagire direttamente col sistema operativo in uso affinché il programma riesca ad interagire con l'apparato audio del computer, restituendo il tutto al FlashPlayer.

    È molto, ma molto complicato da farsi, ma non è fantascienza, anzi...
    A volte la diplomazia va condita con un pizzico di siluri fotonici. (K. Janeway)

Permessi di invio

  • Non puoi inserire discussioni
  • Non puoi inserire repliche
  • Non puoi inserire allegati
  • Non puoi modificare i tuoi messaggi
  •  
Powered by vBulletin® Version 4.2.1
Copyright © 2025 vBulletin Solutions, Inc. All rights reserved.