In che modo Siri mi riconosce dicendo "Hey Siri"?


8

Sto cercando di capire come il mio iPhone può continuamente in ascolto per me dicendo Hey Siri, Alexa, Hey Cortanao Okay Googlesenza esaurire rapidamente la batteria verso il basso.

Ho immaginato due tipi di algoritmo. Uno che registra intervalli di tempo, ad esempio intervalli ampi di 10 ms ogni 200 ms ed esegue un rilevamento sincrono su frequenze specifiche. Tuttavia, questi parametri dipendono fortemente dalle caratteristiche della mia voce. Inoltre, consumerà ancora molta potenza della CPU per cercare continuamente di abbinarsi a Hey Sirinel bel mezzo del nulla.

Che tipo di algoritmo / implementazione efficiente a basso consumo (hardware o software) può svolgere tale compito?

Ciò è in qualche modo legato a questo brevetto, penso: https://www.google.com/patents/US20160253997

Ho letto alcuni articoli che parlano di modelli nascosti di Markov, ma dubito che sia un approccio a bassissima potenza.

Risposte:


6

"Ok Google" è descritto in molte pubblicazioni di Google

Controllo automatico del guadagno e formazione multi-stile per individuare parole chiave robuste di dimensioni ridotte con reti neurali profonde

Reti neurali convoluzionali per individuare parole chiave di dimensioni ridotte

Si basa su DNN appositamente addestrato per la frase chiave e funziona molto velocemente. Non consuma molta energia anche sui dispositivi mobili.

Lo spotting di Alexa è implementato dagli stessi ragazzi e disponibile come Snowboy

AGGIORNAMENTO: Apple descrive la loro implementazione qui .


1

Per elaborare la risposta @ hotpaw2, "Hey Siri" gira sul chip M9 Coprocessor a bassa potenza , che fa anche cose come il monitoraggio dei passi, ecc. Per l'app Health. Di conseguenza, nei dispositivi meno recenti senza chip M9, è necessario che iDevice sia collegato per far funzionare "Hey Siri".

Penso che l'implementazione hardware a bassa potenza sia la chiave (piuttosto che solo un genio algoritmico indipendente dall'hardware)

Riferimenti:


0

Solo alcune ipotesi selvagge:

L'hardware dedicato (chip "M" aggiuntivo o blocco logico SOC con il proprio dominio di potenza isolato), in esecuzione con frequenze di clock o duty cycle di elaborazione audio, su minuscoli buffer di dati, consuma molta meno energia rispetto alle CPU con capacità GHz con vaste gerarchie di memoria. La CPU principale deve riattivarsi solo se un ID probabile iniziale è abbastanza alto, quindi l'algoritmo di rilevamento iniziale non deve essere buono, solo abbastanza buono. Inoltre, considera quanto è piccola la batteria di un auricolare Bluetooth in-ear rispetto a uno smartphone con la stessa durata della batteria. La semplice elaborazione audio non esaurisce rapidamente le batterie relativamente grandi del telefono cellulare.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.