Perché gli umani possono individuare l'audio in mezzo alla folla? Cosa ci vorrebbe per un robot a fare lo stesso?

Oggi ero a una conferenza di robotica e uno degli oratori ha affermato che i robot non sono in grado di funzionare altrettanto bene in mezzo alla folla perché non riescono a individuare l'audio come una persona può fare.

Perché le persone possono distinguere l'audio così bene? E cosa ci vorrebbe per un robot per fare lo stesso?

Sono a conoscenza di Active Noise Reduction (ANR) come nelle cuffie Bose Aviation, ma non è di questo che sto parlando. Sto pensando alla capacità di accettare tutto ma elaborare solo ciò che ritieni sia importante.

artificial-intelligence

— Spugna di mare
fonte

Risposte:

Ciò che l'oratore ha detto alla conferenza non era accurato. Forse intendevano "il nostro robot non può individuare l'audio come una persona può", ma l'affermazione "[i robot] non è in grado di individuare l'audio come una persona può" è falsa.

Ecco un elenco parziale di sistemi che possono determinare la fonte di un segnale audio e seguirlo:

Telefoni da conferenza (e molti telefoni cellulari), con tecniche descritte in questo articolo
Localizzatori di spari
Robot subacquei con array di microfoni rimorchiati, ad esempio l'AUV descritto in questo documento
Robot terrestri mobili

Il termine che stai cercando è un "array a fasi" di microfoni (vedi anche: Toolbox array a fasi di Matlab ). La NASA utilizza array a fasi per localizzare il rumore proveniente dalle pale della ventola del rotore in rotazione .

— Ian
fonte

È passato un po 'di tempo da quando ho seguito quella lezione di audio, ma credo anche che una determinata voce dovrebbe avere caratteristiche che si potrebbe ragionevolmente presumere essere uniche in una folla.

— Erik Reppen,

Per aggiungere alla tua lista, il sensore Kinect per Windows ha un array di microfoni che può usare per determinare da quale lettore proviene l'audio.

— WildCrustacean,

È eccellente, hai un link su come accedere a tali informazioni da Kinect?

— Ian

+1. Ma un robot può prendere decisioni in tempo reale su ciò che è importante e filtrare in base a ciò? Mi sembra che la tua lista includa solo suoni che il robot può imparare in anticipo.

— Adrian Keister,

Certamente. La tecnica si chiama beamforming . Supponendo che abbiate dei criteri che possono essere filtrati per ciò che conta come "importante", una volta raccolto quel segnale, seguirete il suo movimento da quella posizione spaziale.

— Ian,

Penso che ci siano almeno tre cose in corso:

Filtro che dipende dalla posizione da cui proviene il suono. Il nostro udito stereo combinato con alcuni attributi di come sono costruite le nostre orecchie ci aiuta a isolare il suono proveniente da una particolare posizione / direzione.
Filtro che dipende dalla frequenza / ampiezza dell'audio.
La ridondanza nell'audio ci consente di ricostruire l'ingresso. Se più persone parlano l'una sull'altra (o generalmente in presenza di rumore), dobbiamo solo catturare una parte di ciò che viene detto (o talvolta anche osservare visivamente) per sapere cosa viene detto.

Penserei che un robot può superare gli umani su # 1 e # 2. Con un array di microfoni si potrebbe pensare di potersi concentrare efficacemente su un singolo punto nello spazio ed eliminare tutte le altre interferenze. Ciò può essere reso più complicato dalle riflessioni e da vari altri disturbi. # 3 è probabilmente qualcosa che è più difficile da fare per i computer.

— Guy Sirton
fonte

La parola segreta per stasera è stereo hearing. Chiedi a qualsiasi essere umano che abbia perso questa capacità per qualsiasi motivo. Quindi, un programma o anche un robot con 2 o più microfoni avranno questa capacità - se il programmatore sa come gestire l'input.

— ott--