Perché la maggior parte degli assistenti intelligenti offre poca o nessuna personalizzazione della parola sveglia?


14

La maggior parte dei marchi di assistenti intelligenti , come Amazon Echo e Google Home, offre ben poco in termini di personalizzazione per la parola di riattivazione (la frase che usi per riattivare il dispositivo in modo che ti ascolti).

Ad esempio, Alexa offre solo tre opzioni e Google Home supporta solo "OK Google" . Molti utenti sembrano essere interessati all'idea di parole di scia personalizzate, eppure nessuno dei principali marchi ha aggiunto supporto.

C'è qualche motivo tecnico per limitare la personalizzazione delle parole di scia o è semplicemente una scelta di branding?

Ho letto della motivazione di Google per l'utilizzo di "OK Google" , il che suggerisce che l'idea del marchio potrebbe essere vera, ma sembra anche che il riconoscimento delle parole di veglia non sia molto preciso , forse indicando un motivo tecnico. Qualcuno sarebbe in grado di chiarire quale fattore è il motivo principale?


2
Una cosa da ricordare è che l'elaborazione per riattivarsi in quel modo deve essere eseguita in un dominio sempre a basso consumo e sempre attivo: spesso è disponibile hardware specializzato per questa attività in alcuni dei SoC più grandi (specialmente quelli utilizzati nei telefoni), e presumo che i coefficienti di filtro / altri parametri siano accuratamente calcolati e caricati in quell'hardware. Dimentico quale SoC Echo funziona, ma immagino che ci sia un filtro simile presente. Il nome della classe di algoritmi mi sta sfuggendo in questo momento
Krunal Desai,

Risposte:


12

Sì, ci sono diverse ragioni.

Questo post sul blog lo spiega sull'eco e sulla parola sveglia Alexa. Riassumo un po '.

Il riconoscimento delle parole di attivazione viene eseguito localmente e in tempo reale . Ciò limita le lunghezze della parola scia a causa di evidenti limiti di elaborazione. Inoltre, gli utenti non vogliono recitare una poesia per attivare l'assistente intelligente. Pertanto, deve essere breve.

Deve funzionare con un'accuratezza quasi del 100% quando viene chiamato e anche non riconosciuto con quella certezza quando non viene richiesto. Ciò crea problemi e crea anche una lunghezza minima per le parole di scia. La scelta di Amazon di consentire Echo è piuttosto sorprendente poiché sono solo due sillabe .

Se guardiamo i soliti sospetti, abbiamo Alexa (3 sillabe), Amazon (3), Echo (2), Ok Google (4), Hey Cortana (4) e Hey Siri (3). Tutti i giganti del settore concordano quasi sul fatto che tre siano un buon numero di sillabe.

Stranamente la parola di risveglio più ricercata "computer" ha anche tre sillabe e corrisponderebbe facilmente a tale requisito. Inoltre non è un marchio registrato.

Come ci dice il blog - e la ragione - vogliamo assolutamente evitare i falsi positivi. Diamo un'occhiata a quanto sono affermate le parole Computer, Siri, Cortana e Alexa. Questo è il corpus del libro di Google del 2008.

Il computer Ngram supera Alexa e Siri

Esatto, Siri e Alexa sono praticamente in linea con il computer e Cortana dà un errore. Non trovato. Ha senso poiché il corpus è del 2008. Per darci qualche prospettiva in più sul perché il computer è una terribile scia di parole un altro grafico.

ngram del computer rispetto ad altre parole

Questo Ngram mostra i due nomi di bambini statunitensi più popolari del 2016 (per valuta), così come Tom e Dave anche flatline contro il computer . La regina, il basket e la polizia riescono a registrarsi correttamente. Ad ogni modo, questo ci dà un'idea del perché Computer, Earl Grey e Hot non siano stati autorizzati finora. Le persone usano la parola computer troppo spesso.

Un'altra cosa sui falsi positivi. Alexa fa rima praticamente senza dire nulla.

19 cose che rimano con alexa

Il computer fa rima con 74 cose.



2
"Vado a fare sesso con un uccello ... No, non tu Alexa!"
David dice di reintegrare Monica il

1
"OK Google" è quattro sillabe ("oh kay goo gull"), non tre e molto più di tanti fonemi.
Monty Harder,

1
Alexa è un nome da brividi ... Conosco personalmente 2 persone con quel nome, uno dei quali è un cugino. L'eco è usato come nella mia lingua, e spesso dico "c'è un'eco" quando c'è un'eco al telefono o qualcosa del genere. E Amazon è il nome di una vecchia tribù fluviale che un ragazzo in un gioco di ruolo come me dice relativamente spesso. L'hanno davvero incasinato.
Olivier Grégoire,

2
Non sono sicuro di acquistare quella spiegazione del perché la parola "computer" non funzionerebbe. La parola stessa non è l'unica cosa che viene riconosciuta. Essere la prima parola di un enunciato ed essere seguito da una pausa sono anche importanti informazioni che identificano la parola di comando.
Kevin Krumwiede,

2

C'è qualche motivo tecnico per limitare la personalizzazione delle parole di riattivazione?

Quando il dispositivo assistente non è in uso, il processore dell'applicazione (penso ARM in caso di Alexa e Google Home) viene sospeso e portato allo stato di alimentazione più basso possibile. Il rilevamento delle parole di riattivazione viene lasciato a un DSP ad alta efficienza energetica che ascolta il rumore / le voci ambientali ed esegue un algoritmo per decidere se esiste una corrispondenza con la parola di riattivazione. Se trova una corrispondenza con una buona dose di fiducia, DSP riattiva il core ARM per proseguire con il resto dell'elaborazione.

Ora, poiché l'obiettivo è quello di essere efficiente dal punto di vista energetico, il DSP in questione esegue l'algoritmo e memorizza il modello di modello sulla memoria su chip anziché sulla RAM di bordo principale. Ciò consente al sistema di portare anche la RAM DDR allo stato di alimentazione più basso.

Poiché il DSP ha un numero di cose chiave da fare e pochissima memoria su chip, le parole di riattivazione dell'Assistente sono limitate a poche scelte più scelte che possono essere abbinate dall'algoritmo con un alto grado di sicurezza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.