Dato un evento in un gioco, qual è il ritardo massimo nella produzione di audio che il giocatore associerà correttamente l'audio a quell'evento (e non a percepire il ritardo)?
Dato un evento in un gioco, qual è il ritardo massimo nella produzione di audio che il giocatore associerà correttamente l'audio a quell'evento (e non a percepire il ritardo)?
Risposte:
I seguenti risultati vengono calcolati per la sincronizzazione labiale che è considerata "l'errore di sincronizzazione a / v più evidente" .
Dice Wikipedia
Per le applicazioni televisive, l'audio dovrebbe condurre i video per non più di 15 millisecondi e l'audio dovrebbe ritardare i video per non più di 45 millisecondi. Per il film, la sincronizzazione labiale accettabile non è considerata superiore a 22 millisecondi in entrambe le direzioni.
Dice il Media and Acoustics Perception Lab
I risultati dell'esperimento hanno determinato che la soglia iniziale audio media per il rilevamento della sincronizzazione audio / video era 185,19 ms, con una deviazione standard di 42,32 ms
L'ATSC dice
A prima vista sembra sciolto: da +90 ms a -185 ms come una "finestra di accettabilità"
e
- Non rilevabile da -100 ms a +25 ms
- Rilevabile a -125 ms e +45 ms
- Diventa inaccettabile a -185 ms e +90 ms
(- Suono ritardato, + Suono avanzato)
Concludere
I risultati non sono così lontani l'uno dall'altro. Sembra che il ritardo massimo accettabile sia di circa 150 ms, ovvero 9 frame a 60 frame al secondo.
La sensazione che, per esempio, un'esplosione che vedi e ascolti sia un singolo evento avrà le tolleranze descritte in altre risposte - non più di ~ 50ms; alcune persone potrebbero essere più sensibili (ad esempio i musicisti), quindi suggerirei di puntare a 30 ms o non più di 2 fotogrammi a 60 fps.
Credo che la distanza percepita dovrebbe influenzare tali tolleranze. Le persone si aspettano che i suoni lontani siano leggermente ritardati, poiché nella vita reale il suono è in ritardo di circa 1 ms per ogni piede di distanza. Quindi un'esplosione su una 'mappa' di gioco RTS ingrandita potrebbe avere una tolleranza maggiore per il ritardo del suono rispetto al giocatore che spara la propria pistola in un FPS.
Casi specializzati, come avere la sensazione giusta per un gioco di musica / ritmo possono richiedere tolleranze molto più strette, 15-20ms o anche più basse - per esempio, se il giocatore sente entrambe le "azioni di input" come cantare in un microfono o battere un strumento di plastica, e anche un suono generato dal tuo sistema per lo stesso evento, un ritardo di 50ms farà sì che i suoni "originali" e "suonati" si mescolino in modo strano.
Inoltre, tieni presente il ritardo tra l'inizio del file audio e "l'evento" all'interno di quel file audio - in molte clip audio, "l'evento" non sarà proprio al limite, potresti avere il suono di un fulmine sciopero in cui lo "sciopero" si verifica 200 ms dopo l'inizio, il che sarebbe ovvio per tutti, e praticamente tutti i file audio, anche un colpo di batteria, avranno qualche ritardo lì.
La vista e l'udito sono profondamente collegati nella percezione umana e se uno di loro balbetta relativamente all'altro, sarà percepibile. Non va bene se la maggior parte delle volte è molto veloce ma a volte c'è un ritardo di 0,2 secondi mentre qualcosa si sta caricando - le persone noteranno tali situazioni. Questo è il motivo per cui l'audio viene spesso eseguito su un thread separato, isolato dalle altre attività e riceve semplicemente notifiche rapide su quali clip precaricate devono essere riprodotte.
Ogni situazione in cui un giocatore causa il suono (giochi musicali, pistole in FPS) avrà bisogno di un ritardo molto basso poiché il giocatore ha inviato l'impulso per farlo accadere in quel momento, così come quando un musicista ascolta il suo strumento in ritardo, sarà particolarmente consapevole di ritardi molto piccoli. Gli ingegneri del suono si preoccupano dei ritardi di registrazione inferiori a 5 mSec rovinando il "groove"
Il Journal of American Academy of Audiology afferma che le persone (non solo i musicisti), quando ascoltano la propria voce in ritardo, sono consapevoli di ritardi brevi di 3mSec, e un ritardo superiore a 10 mSec era discutibile il 90% delle volte.
Gli esseri umani usano il ritardo tra le loro orecchie per informazioni direzionali e quindi devono essere in grado di elaborare ed estrarre informazioni da ritardi inferiori a 1mSec
I 185.19 ms citati sopra sono irrilevanti in quanto si riferiscono a un grave errore sonoro e comunque a ciò che la gente ha trovato accettabile quando guardava passivamente un film, non attivamente coinvolto in un gioco.
La risposta accettata qui discute principalmente sulla percezione della sincronizzazione audio nella visione passiva del video. In questi casi, il pubblico non può facilmente individuare esattamente quando l'audio dovrebbe essere riprodotto se non assistendo a segni rivelatori nel video. Ciò significa che hanno un'anticipazione limitata del suono.
Ci sono due casi importanti nei giochi in cui questo presupposto di bassa anticipazione non regge:
Quando il giocatore stesso ha causato il suono (come sottolinea SamB), quindi dal momento in cui formano l'intenzione di premere il pulsante, sanno esattamente quando si aspettano di sentire il suono.
Quando il suono dovrebbe atterrare su un battito periodico , come nei giochi musicali o in qualsiasi cosa con un timer / contatore che ticchetta, questo ritmo consente al giocatore di anticipare il suono successivo e notare se viene riprodotto fuori tempo.
In questo discorso di GDC 2013, Mathieu Pavageau sostiene che i giocatori possono percepire differenze nella precisione della sincronizzazione superiori a circa 5 ms , molto meno tolleranti di quanto suggerirebbero gli esempi di sincronizzazione labiale. Dai un'occhiata alle sezioni "Esempi di percezione del tempo" ed "Esempio di giochi Ubisoft" per ascoltarlo tu stesso. Puoi sentire che il menu di Rayman Origins non suona "in ritardo" di per sé se sincronizzato entro 16 ms (fotogramma video), ma quando sincronizzato entro 5 ms suona notevolmente meglio e più stretto.
Pavageau consiglia di utilizzare un callback audio di basso livello per ottenere questo tipo di precisione del sub-frame se si desidera un gameplay ritmico di questa varietà.
Per i giochi che richiedono a una persona di reagire ai segnali audio, ogni millisecondo in cui il suono viene ritardato farà ritardare allo stesso modo la risposta della persona. Qualcuno che sta semplicemente guardando un film o una scena tagliata potrebbe non notare troppo se l'audio e il video non sono esattamente sincronizzati, ma è spesso importante e talvolta fondamentale che l'audio sia sincronizzato con ciò che il giocatore dovrebbe fare .
In teoria, tutto ciò che supera i 50ms può essere evidente quando si tratta dell'associazione alle immagini, a 25ms puoi iniziare a sentire un suono e il suo ritardo come due suoni separati, quindi direi che ti consiglio vivamente di rimanere sotto i 50ms e se può anche stare a qualcosa da 5ms a 15ms sarebbe davvero bello.
Spero che questo ti possa aiutare!